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Préface 


Cet ouvrage présente les concepts fondamentaux de la théorie statistique et 
décrit les méthodes les plus souvent utilisées dans la pratique, Ilest destiné aux 
étudiants dont le programme d'études inclut une connaissance étendue des mêth- 
odes statistiques. 1l s'adresse aussi aux chercheurs de divers domaines des sci- 
ences appliquées ainsi qu'aux étudiants qui envisagent de poursuivre ultérieure- 
ment une étude plus appronfondie de la théorie statistique et de ses applications. 
Il est conçu pour un cours couvrant une année universitaire, à raison de deux 
heures de cours proprement dit et deux heures de travaux pratiques par semaine. 
Son élaboration s'est échelonnée sur une période de 12 ans d'enseignement dis- 
pensé, de 1986/87 à 1998/9099, aux étudiants de deuxième année de la faculté de 
droit et de sciences économiques de l'Université de Neuchâtel. Il ne nécessite 
pas au préalable d'avoir suivi un cours élémentaire de statistique, mais seule- 
ment de posséder une bonne aptitude pour les raisonnements quantitatifs et un 
minimum de connaissances mathématiques. 

Outre un prologue et des annexes, l'ouvrage comporte trois parties, statis- 
tique descriptive, probabilité et statistique inférentielle, La première partie est 
constituée de six chapitres traitant des notions fondamentales de la statistique 
descriptive, notamment des concepts de population, de variable et d'observation, 
ainsi que de la représentation des données numériques sous forme de tableaux 
statistiques et de graphiques, des mesures de tendance centrale, de dispersion 
et d'analyse exploratoire de données. La deuxième partie est formée de trois 
chapitres consacrés, respectivement, à la notion de probabilité, aux variables 
aléatoires discrètes et aux variables aléatoires continues, La troisième partie 
est fondée sur les deux premières et expose un ensemble de méthodes statis- 
tiques permettant, chacune dans une situation particulière, de se prononcer sur 
un phénomène postulé à partir d'un ou plusieurs échantillons. Cette partie est 
formée de sept chapitres, échantillonnage et estimation, intervalles de confiance 
d'une estimation, tests d'hypothèses, comparaison de deux populations, analyse 
de variance, régression linéaire et corrélation et analyse de données catégoriques. 

L'accent a été mis beaucoup plus sur l'explication des méthodes exposées 
et leur utilisation que sur les justifications mathématiques des différents résul- 
tats. Très souvent, l'introduction d'un sujet et le déroulement du raisonnement 
ont été effectués par le biais d'exemples numériques tirés de diverses situations 
de la vie économique et sociale. Chaque chapitre, à l'exception du premier, 
se termine avec une série d'exercices illustrant les différents concepts et méth- 
des du chapitre. De plus, quelques exercices théoriques abordent des aspects 
particuliers n'ayant pas été traités dans le texte du chapitre. 

Chaque fois qu'une nouvelle méthode statistique a été présentée, on s'est 
efforcé d'indiquer clairement les conditions de son application qui sont générale- 
ment la distribution normale des variables et l'indépendance des observations en- 
tre elles. Les procédures d'évalution du bien-fondé des conditions d'application 
des diverses méthodes expostes, ainsi que les méthodologies statistiques alter- 
nalives applicables aux distributions non normales et aux observations dépen- 


dantes, n'ont pas été jugées opportunes dans le cadre de cet ouvrage. Toutefois, 
ces aspects devraient être toujours présents à l'esprit de l'utilisateur averti. 

Certains domaines de la statistique comme par exemple les méthodes non- 
paramétriques, la statistique robuste, l'analyse de données multivariées, et les 
séries chronologiques, qui sortent du cadre de cet ouvrage, n'ont pas été abor- 
dés, 

Il a fallu beaucoup d'énergie et de temps pour écrire la première édition 
en 1990. Nicole Rebetez a habilement programmé la production des tables 
de Chi-carré et de Student et patiemment préparé l'index. Béatrice Malignon 
a pris en charge la préparation de l'ensemble des figures. Sylvie Gonano a 
entrepris la dernière lecture et corrigé les erreurs d'un texte qui était sensé 
être sans erreur. Elle en a trouvée en moyenne plus de cinq par page! Le 
tout a été dactylographié par Séverine Pfaff en traitement de texte LATEX. 
Je suis pronfondément reconnaissant à chacune pour l’aide précieuse qu'elles 
ont apportée, si consciencieusement et si agréablement. je tiens également à 
remercier vivement les Professeurs Fahrad Mehran et Michel Rousson pour leurs 
contributions à cette premère version. 

Plusieurs personnes m'ont aidé à la mise au point de cette deuxième édition 
de l'ouvrage. Je tiens à remercier ici tout particulièrement Pierre Pury qui a 
corrigé l'ensemble du manuscrit, Mercedes Morris et Elisabeth Pastor qui ont 
rédigé le chapitre 6 sur l'analyse exploratoire des données et qui, avec l'aide 
de François Lefebvre, ont relu les autres chapitres du livre, Thierry Murier et 
Stéphan Munier qui ont refait l'ensemble des figures du livre avec le logiciel 
S-plus. Finalement, c'est grâce à l'infatigable Christophe Beuret qui a minu- 
tieusement relu une dernière fois le manuscrit et scanné toutes les figures, qu'a 
pu être mis un point final à cet ouvrage, Sans son aide précieuse, notamment 
en informatique, je n'aurais pas pu présenter ce livre sous sa forme actuelle. 


Université de Neuchâtel 
Septembre 1999 Yadolah Dodge 
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Chapitre 1 


Prologue 


La statistique est une discipline qui concerne la quantification des phénomènes 
et l'élaboration de procédures inférentielles, Elle a trait, en particulier, aux 
problèmes de mise en œuvre et d'analyse des expériences et des échantillons, à 
l'examen de la nature des erreurs d'observations et les sources de variabilité, et 
à la représentation sommaire des grands ensembles de données, Cet ouvrage a 
pour but de guider le lecteur dans son apprentissage de la statistique et de ses 
méthodes. 

La statistique ne se comprend que comme partie intégrante du processus de 
recherche. L'outil statistique est choisi en fonction de la nature et de la structure 
de la recherche. Il est au service de la recherche, même si cette dernière doit 
en général être pensée en tenant compte des outils statistiques dont on dispose 
et de leurs conditions d'application, C'est la raison pour laquelle, tout au long 
de ce texte, on se référera à des problèmes de recherche, simples en général, 
mais suffisamment riches pour illustrer le processus global de réflexion qui doit 
présider à l’utilisation d'outils statistiques. 

Dans ce chapitre, les étapes fondamentales de La recherche (pure ou ap- 
pliquée) sont brièvement décrites pour tenter de clariñer la position de la métho- 
dologie statistique dans la démarche scientifique. 


2 Chapitre 1 


1.1 Recherche et statistique 


La recherche, au sens général, est une investigation ou une expérimentation 
critique ayant pour objectif la découverte et l'interprétation correcte de nou- 
veaux faits ou de nouvelles relations entre différents phénomènes. Elle a égale- 
ment pour fonction la vérification de lois, conclusions ou théories acceptées, et 
à la lumière de faits nouveaux, le développement de nouvelles lois, de nouvelles 
conclusions où de nouvelles théories. 


L'observation et le raisonnement sont les deux bases de la recherche. 
Si l'observation permet d'obtenir des données, c'est le raisonnement qui nous 
conduit à donner une signification à ces données, à examiner leurs relations 
et à les situer dans l'ensemble des connaissances acquises dans un domaine 
particulier. 


Le processus se déroule par étapes. Une hypothèse conduit, par l'inter- 
médiaire d'un processus déductif, à certaines conséquences qui peuvent être 
comparées avec des faits empiriques. Quand les conséquences déduites de l'hy- 
pothèse et les données recueillies sur Le terrain ne correspondent pas, les écarts 
ét leur analyse peuvent conduire, par un processus appelé induction, à La mod- 
ification de l'hypothèse initiale. Un second cycle débute alors qui, à son tour, 
peut conduire à une troisième version de l'hypothèse, cette dernière pouvant 
être réexaminée où en revanche globalement confirmée. 


Comme l'idéal de la science (pure ou appliquée) est de mettre systémati- 
quement en évidence les relations entre des faits et des données, la statistique, 
pour atteindre cet idéal, fournit des méthodes scientifiques d'observation, d'ex- 
périmentation et d'argumentation, Ces méthodes sont dérivées de la théorie 
statistique qui constitue le cadre formel pour l'étude des procédures permettant 
le lien entre les observations et l'inférence. Cette inférence peut être une esti- 
mation, une décision où n'importe quel but final pour autant qu'il se situe dans 
un contexte émpiriqué. 


En bref, la statistique est une discipline relative à la quantification des 
phénomènes ainsi qu'au comportement des données empiriques et des hypothèses 
scientifiques. La théorie statistique est le cadre qui fournit un certain nombre 
de procédures que l'on appelle “méthodes statistiques”. 


Le terme “statistique” est parfois utilisé dans plusieurs sens, par exemple, 
pour se référer non pas à une discipline globale comme décrite ici mais, plus 
précisément, à un ensemble d'outils statistiques comprenant les formules et les 
tableaux. 


Dans un sens encore plus étroit, le terme “statistique” est aussi employé pour 
se référer à un ensemble de données numériques, par exemple, les statistiques 
du chômage de 1988 en Suisse. Le mot “statistique” au singulier est aussi par- 
lois utilisé pour dénoter un paramètre numérique, par exemple, une estimation 
calculée à partir des observations de base, 


Prologue J 


1.2 Statistique descriptive et inférentielle 


Les méthodes statistiques disponibles actuellement constituent un ensemble de 
procédures et de règles aidant l'analyse numérique. Elles concernent entre 
AULTES : 


1. le recueil et l'agrégation des données ; 
2. La structuration des plans d'expériences et des enquêtes statistiques : 


3. l'estimation des paramètres d'un univers et diverses estimations (mesures) 
de la précision de ces estimations ; 


4. le test d'hypothèses À propos d'ensembles ou de populations divers ; 
5. l'étude des relations entre diverses variables ;: 


6. La réduction d'un grand nombre de variables en dimension significative. 


Et bien d'autres, On peut faire une distinction entre ces différentes mé- 
thodes : celle relative à la statistique descriptive et celle relative à la statistique 
inférentielle. 

Le but principal de la statistique descriptive est de présenter l'infor- 
mation d'une façon compréhensible et utilisable, par exemple en calculant des 
movennes, en construisant des histogrammes, en établissant des tableaux croisés, 
en représentant graphiquement les données, etc. 

La statistique inférentielle, de son côté, a pour fonction d'aider à la 
généralisation de cette information ou, plus spécifiquement, de faire des in- 
férences - estimation, décision, test d'hypothèses, etc - basées sur des échantil- 
lons tirés d'un ou plusieurs univers à étudier. 


1.3 Exemples 


Tout au long de ce texte, nous apprendrons à examiner des données statistiques 
et à en tirer des conclusions, à résumer une série numérique et à la rapprocher 
d'un modèle théorique, à étudier un tableau de chiffres et à y détecter des aspects 
significatifs, à analyser un ensemble de données et 4 6tablir des relations. Ainsi, 
à la fin de ce livre, le lecteur attentif devrait disposer d'un bon choix d'outils 
statistiques lui permettant de faire face à diverses questions numériques. Voici 
quelques exemples. 


« Fernmes et discrimination. Aux États-Unis, toute une branche de la sta- 
tistique, appelée Jurimetrics, se développe pour aider à résoudre certains prob- 
lèmes juridiques qui se posent aux magistrats et aux juges. Une grande par- 
tie d'entre eux concerne des cas de discrimination professionnelle affectant les 
femmes ou d'autres minorités sociales, Le juge est souvent appelé 4 se prononcer, 
à partir d'analyses statistiques, sur les pratiques d'embauche ou de promotion 


d Chapitre 1 


du personnel de la compagnie accusée de discriminer les femmes ou une autre 
minorité. 


Tableau 1.1 : Femmes et discrimination 


Femme Homme 
Grade  Emplovées Promues Employés  Promus 
7 19 3 238 35 
pu) 39 T 147 45 
9 57 17 235 34 
li 143 4] 242 17 


Total 288 61 862 211 


À partir des chiffres du tableau 1.1, peut-on conclure avec une certaine con- 
fance qu'il y a en effet discrimination à l'encontre des femmes en matière de 
promotions T 


+ La loi d'Engel. Célèbre en sciences économiques, la loi d'Engel (formulée 
en 1857 par Ernst Engel, Directeur du Bureau de statistique de Prusse) établit 
que, à faits égaux, la part du revenu dépensé pour l'alimentation diminue au fur 
et à mesure que le revenu augmente, On dit alors que l'élasticité de l’alimenta- 
tion par rapport aux variations du revenu est inférieure à l'unité, Ceci signifie 
qu'une augmentation de 1% du revenu entraînerait un pourcentage plus faible 
d'augmentation des dépenses consacrées à la nourriture. La loi d'Engel et, de 
façon plus générale, la notion d'élasticité est fondamentale dans la formulation 
des politiques de salaires et de prix. Dans le tableau 1.2, on trouve des don- 
nées concernant la Suisse permettant de tester la loi d'Engel ét dé calculer le 
coefficient d'élasticité de l'alimentation par rapport au revenu. 


Tableau 1.2 : Dépenses alimentaires en Suisse en 1964 


Classe de revenu Nombre de  Dépense moyenne pour la 


(revenu annuel en Fr.) | ménages nourriture et la boisson 
moins de 15 000 35 4 638 
15 000 - 17 OOÛ T4 4 591 
17 000 - 19 000 60 5 099 
19 000 - 21 000 40 5 246 


« La bourse, Tous les jours des milliers ou des millions de personnes étudient 
le développement des valeurs boursières, essayant de détecter des régularités et 
d'établir des prévisions. Consciemment ou non, tous ces “spécialistes” partent 
de l'idée que derrière les mouvements qui semblent aléatoires se cachent des 
tendances solides qui, une fois détectées, pourront servir de signaux aidant à 
prévoir le futur. 

Voici quelques autres questions relevant de la méthodologie statistique : 


QE 


Prologue 


1. Comment peut-on, à des milliers de km de distance, distinguer l'explosion 
d'une bombe atomique d'un tremblement de terre ? 


2. Comment peut-on décider, à l'occasion d'une petite augmentation de l'in- 
dice des prix à la consommation, s'il s’agit d'une variation saisonnière ou 
d'une petite déviation aléatoire ? 


3. Dans quelle mesure le fait de fumer des cigarettes augmente-t-il les risques 
d'avoir un cancer des poumons ? 


4. Comment construire une expérimentation permettant de mesurer les effets 
d'un nouveau traitement médical ? 


5. Pour quelle raison le joueur au casino est-il perdant à la longue ? 


6. Comment décrire de manière synthétique les nombreuses données recueil- 
Les sur les attitudes du public par rapport à l'énergie Ÿ 


T. Comment estimer le nombre des poissons du lac de Neuchâtel sans vider 
l'eau du lac ? 


8. Comment définir le chômage de sorte qu'il soit mesurable à travers les 
enquêtes spécialisées ? 


9. Comment élaborer une nomenclature et un système de codage afin d'obtenir 
des statistiques sur les personnes occupées dans les différentes professions ? 


1.4 Historique 


Le terme statistique semble apparaître pour la première fois à la fin du 16° sié- 
cle en Italie, Il est alors lié aux notions de dénombrement, d'inventaire. Mais 
la véritable origine de la statistique moderne est fixée selon Kendall (1960) à 
1660 avec l'utilisation de données recueillies à des fins économiques ou démo- 
graphiques (les recensements). 

La statistique descriptive (informations sur un échantillon donné) commence 
alors à se développer, Mais ce n'est qu'au 19° siècle que Les méthodes statistiques 
ainsi que les lois statistiques prennent leur essor, ét ce par la prise en compte de 
l'importance de la statistique dans les domaines des sciences expérimentales et 
humaines. Puis, Le 20° siècle assoit La statistique en tant que discipline à part 
entière par la richesse et la diversité des méthodes qu'elle renferme. 

Dès le début du LS siècle, À. de Moivre (1718) puis T. Baves (1763), C. F. 
Gauss (1809) et P. S. Laplace (1812) cherchent à estimer un certain nombre de 
paramètres caractérisant la population associée à l'échantillon traité : c'est le 
début de la statistique inférentielle complément désormais indispensable de La 
statistique descriptive, Lä encore, la fin du 19° siècle et le 20° siècle marquent le 
développement non seulement de cette notion de la statistique avec F, Galton, 
FE. $. Pearson ou KR. À. Fisher, mais aussi celui de l'analyse de données. 


KARL PEARSON 
(1857-1936) 


Né à Londres en 1857, Karl Pearson est 
connu pour ses nombreuses contributions 
à la statistique. Après des études à Kings 
College, Cambridge, il fut nommé dès 
1885 à la Chaire de Mathématiques 
appliquées de l'University College à 
Londres. 


En 1901, il fonde la revue “ Biometrika "” 
avec l'aide de Francis Galton. Il en 
assumera la direction, jusqu'à sa mort en 
1956. K. Pearson accueille en 1906 W. 8. 
Gosset (* Student ”) dans son laboratoire 
pour résoudre les problèmes posés par les 
échantillons de petites tailles. De 1911 
jusqu'à sa retraite en 1933, il est titulaire 
de la chaire d'Eugénique à l'University 
College de Londres. Il partagera ensuite 
son département en deux : le département 
d'Eugénique confié à KR. A. Fisher et celui 
de statistique à son fils Egon Shape 
Pearson. 


Statistique descriptive 


Moi: De quel côté est le chemin ? 


Le Sage: De quelque côté que tu ailles, si tu es un vrai 
pèlerin, tu accompliras le voyage. 


SOHRAVARDI, philosophe persan (1155 - 1191). 
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Chapitre 2 


Définitions 


Qu'il s'agisse de développer un plan d'expérience ou de mettre en œuvre une en- 
quête par sondage, d'ajuster un modèle empirique ou de tester une hypothèse, de 
faire une prévision où simplement de représenter graphiquement quelques séries 
de données, on peut dire que la méthode statistique s'articule autour de quatre 
concepts de base : ln population, les variables, les observations et les don- 
nées. Le concept de population sert à délimiter précisément le champ d'étude 
et celui de variables à concrétiser les phénomènes à étudier, L'observation Be la 
réalité à la théorie, et les données, résultant directement ou indirectement des 
observations, fournissent la matière concrète au traitement statistique. 

Le but de ce chapitre est de donner les définitions précises de ces concepts 
indispensables à l'étude de la statistique. 


# Chapitre 2 


2.1 Population 


La population est l'ensemble des éléments qui forme le champ d'analyse d'une 
étude particulière. Par exemple, dans une étude sur l'emploi, la population 
pourrait être l'ensemble des personnes en âge de travailler. Dans une enquête 
sur la natalité, la population pourrait être l'ensemble des naissances ayant eu 
lieu durant une période spécifiée. 

Malgré la connotation démographique, le concept de population en statis- 
tique est général et ne s'applique pas seulement aux êtres humains, mais aussi 
aux choses, aux agrégats, aux événements, etc. Une analyse quantitative du 
commerce extérieur demanderait, par exemple, de définir la population en terme 
d'ensemble de produits d'exportation dans les différentes branches d'industrie. 
Dans une étude régionale du produit national brut (PNB), la population pour- 
rait être l'ensemble des pays et territoires de l'Europe. Dans une étude relative 
à l'assurance automobile, la population pourrait être l'ensemble des voitures 
assurées, ou bien l'ensemble des accidents survenus durant une période donnée, 
ou bien encore l’ensemble des réclamations de dommages-intérêts impayés. 

La population est donc constituée d'un ensemble d'éléments que l'on appelle 
individus ou unités statistiques. Les individus dans le sens courant du terme, 
dans le premier exemple, les naissances dans le deuxième, et dans les exemples 
suivants, respectivement, les produits d'exportation, les voitures, les accidents, 
les réclamations non payées, les pays sont tous les unités statistiques des études 
mentionnées. 

Il est fondamental de bien préciser la population et ses éléments avant de 
s'engager dans les calculs et le traitement des données. Certaines applications 
exigent une précision rigoureuse ne laissant place à aucune ambiguïté. Par 
exemple, dans une enquête nationale sur l'emploi, il ne suffit pas de définir 
la population en terme d'ensemble des personnes en âge de travailler, il faut 
préciser l'âge et ceci d'une façon claire ; par exemple : 15 ans révolus (âge au 
dernier anniversaire). Il faut aussi préciser si les étrangers sont inclus ou exclus, 
si les militaires sont compris ou non compris, si les personnes vivant dans des 
caravanes, des bateaux ou n'ayant pas de domicile fixe sont à considérer ou non, 
etc. 

La population est l'ensemble des unités statistiques définissant le champ 
de l'étude. Les unités statistiques sont les éléments de la population. Elles 
constituent Les éléments d'observation et d'analyse de l'étude. 


2.2 Variable 


Si les éléments d'une population possèdent en commun le caractère d'être tous 
membres de la même population, ils varient cependant selon d'autres critères. 
Les voitures assurées par une compagnie d'assurance ont toutes le caractère 
commun d'être couvertes par la même assurance, mais elles varient selon leur 
couleur, leur marque, leur puissance, leur prix, le nombre de kilomètres parcou- 
rus, etc. 
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Ces caractéristiques sont appelées, en statistique, des caractères ou des 
variables. Elles servent à décrire la population en question, c'est-à-dire, à 
préciser quels sont lés aspects de cette population qui nous intéressent et qui 
seront analysés dans la présente étude. 

Une variable, souvent représentée symboliquement par une lettre majus- 
cule située à la fin de l'alphabet comme X,Ÿ...., comprend d'une part. un li- 
bellé qui permet d'intituler la variable, et d'autre part, un ensemble de modal- 
itès décrivant les différentes valeurs possibles de la variable. Par exemple, la 
variable qui distingue les individus suivant leur sexe aurait comme libellé “se. 
xe" et comme modalités “homme” et “femme”. La variable indiquant l'âge 
des individus aurait comme libellé “âge” et comme modalités, les différentes 
valeurs représentant tous les âges possibles des individus formant La population 
étudiée. La variable décrivant la couleur des voitures assurées aurait comme 
libellé “couleur” et comme modalités, par exemple. les sept couleurs de l'arc- 
en-ciel : rouge, orange, jaune, vert, bleu, indigo et violet. 

Ce dernier exemple montre bien que le libellé d'une variable ne suffit pas 
pour la décrire complètement, Une description complète demande de préciser 
également l'ensemble des modalités retenues, Le nombre de modalités selon 
lequel on définit une variable peut-être modifié suivant les besoins de l'enquête. 
Les couleurs des voitures peuvent être, par exemple, beaucoup plus nuancées et 
variées que les sept couleurs de l'arc-en-ciel. 

Le choix d'un caractère où d'une variable pour décrire une population déter- 
mine les critères qui serviront à classer les individus en divers sous-ensembles. Le 
nombre de sous-ensembles est défini par le nombre de modalités de la variable. 
Afin que le classement des unités statistiques puisse se faire sans ambiguïté, les 
différentes modalités des variables doivent être à la fois incompatibles (un indi- 
vidu ne peut pas appartenir à la fois à deux ou plusieurs modalités) et exhaus- 
tives (tous les cas ont été prévus). Par exemple, pour la variable “état-civil", 
il faut que les différents cas possibles (célibataire, marié, divorcé, veuf) soient 
représentés par les modalités de la variable et qu'il n'y ait aucune ambiguïté 
dans la classification des cas spécifiques comme l'union libre, le concubinage, 
EC. 

Comme certaines méthodes statistiques s'appliquent à quelques types de 
variables et pas à d'autres, il est nécessaire de distinguer les différentes sortes de 
variables: les variables qualitatives d'une part et les variables quantitatives 
d'autre part; et parmi les variables quantitatives, les variables discrètes et les 
variables continues. 


2.2.1 Variables qualitatives 


Une variable qualitative est une variable dont les modalités sont des mots ou 
des lettres que l’on appelle des catégories. On trouve par exemple, les caté- 
gories “homme” et “femme” de la variable sexe, les catégories “rouge”, “o- 
range”, “jaune”, “vert”, “bleu”, “indigo” et “violet” de la variable couleur, ou 
les catégories “qualifié”, “semi-qualifié" et “non qualifié” de la variable qualifi- 
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cation professionnelle des ouvriers d'une industrie. Les modalités des variables 
qualitatives sont donc non numériques. Ce sont des “étiquettes” qui n'ont pas 
directement de propriétés mathématiques. 

Une variable qualitative qui ne comporte que deux catégories est dite di- 
chotomique. La variable “sexe” est dichotomique. La variable “couleur d'é- 
cran” dans le contexte des téléviseurs ou des ordinateurs PC est aussi une vari- 
able dichotomique : les valeurs possibles sont “noir et blanc” ou “couleur”. Les 
variables dichotomiques jouent un rôle important en statistique, car beaucoup de 
situations concrètes se présentent sous cette forme : “absence” ou “présence” 
d'un phénomène : réponse “positive” où “négative” à une question; position 
“marche” ou “arrêt” pour une machine : etc. 

Par opposition aux variables dichotomiques qui n'ont que deux modalités, 1l 
y a des variables qualitatives représentant des phénomènes plus complexes qui 
comprennent un plus grand nombre de modalités. C’est le cas, par exemple, de 
la variable “profession”. Le répertoire des professions en Suisse compte plus de 
30 000 professions, groupées en différents niveaux d'agrégation. Dans le cas de 
variables qualitatives ayant un grand nombre de catégories, on parle plutôt de 
rubriques. Exemple : les rubriques de la nomenclature des professions ou de la 
classification des types de professions, 

Les modalités d'une variable qualitative peuvent étre classées sous la forme 
d'une échelle nominale ou d'une échelle ordinale. 


« Échelle nominale 


On dit d'une variable dont les catégories ne sont pas naturellement ordon- 
nées, qu'elle est définie sur une échelle nominale. 

Par exemple, si nous devions étudier le sexe de la progéniture d'une souris, 
soumise à des injections d'une substance chimique au cours de la grossesse, le 
sexe serait la variable observée, Les deux catégories, mâle et femelle, de cette 
variable, n'ont pas un ordre logique à respecter. On peut indifféremment mettre 
la catégorie mâle avant ou après la catégorie femelle. 

Pour des raisons pratiques, on code souvent les variables qualitatives en 
attribuant un numéro à chaque catégorie, Dans le cas de la variable “sexe”, on 
pourrait donner le code Q à la catégorie mâle et le code 1 4 la catégorie femelle. 

Le fait d'attribuer des valeurs numériques pour représenter les diverses caté- 
gories d'une échelle nominale ne signifie pas que ces nombres possèdent des 
propriétés arithmétiques. Ces codes n'ont pas valeur de mesure ou de dénom- 
brement. Ils ne servent qu'à identifier les catégories de manière pratique. 


« Échelle ordinale 


Si les catégories peuvent être ordonnées, on est en présence d'une échelle 
ordinale : les catégories représentent donc un ensemble de rapports ordonnés, 
ce qui signifie que leurs différences reposent sur une forme de relation, Ce 
rapport peut être exprimé, par exemple, par des expressions comme : “plus 
grand que”, “plus rapide que”, “plus riche que”, “plus fort que”, etc. 
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La variable “qualification professionnelle" avec les modalités “non qualifié”, 
“serni-qualifié” et “qualifié” est mesurée sur une échelle ordinale, On représente 
parfois les catégories avec des nombres croissants ou décroissants pour indiquer 
l'ordre existant entre les modalités de la variable. Dans l'exemple précédent, les 
nombres pourraient être : 

“non qualifié” = 1, “semi-qualifié” = 2 et “qualifié” = 3. 

I! faut souligner que les nombres utilisés pour représenter les catégories d'une 
telle échelle sont non-quantitatifs. Ils indiquent une position dans une série or- 
donnée et non l'importance de la différence qui existe entre les positions succes- 
sives de l'échelle, 

Ainsi, dans un concours, le fait de dire que Paul est 1°, Jacques 2 et Pierre 
3° ne nous donne aucune indication sur la distance qui sépare Paul de Jacques, 
Jacques de Pierre et ainsi de suite, 


2.2.2 Variables quantitatives 


Une variable quantitative est une variable dont les modalités ont des valeurs 
numériques. Par exemple l’âge, la température, le revenu, la pression atmo- 
sphérique, Le nombre de membres d'une famille, la durée d'un conflit interna 
tional sont toutes des variables quantitatives. 

De mème que les variables qualitatives, les variables quantitatives sont déf- 
nies par leur libellé et leurs modalités. Les modalités représentent l'ensemble des 
valeurs possibles de la variable. Par exemple, la variable “nombre de membres 
d'une famille” pourrait avoir comme modalités les chiffres entiers 1, 2, 4... Les 
valeurs possibles de la variable “revenu” seraient toutes Les valeurs entre 0 et 1 
trillion ou plus de centimes ou de francs. Si l'endettement est pris en compte, 
les valeurs négatives pourraient aussi être admises. 

Les variables quantitatives doivent être énoncées selon l'unité à laquelle elles 
se reportent. Est-ce que le revenu est exprimé en francs français ou en francs 
suisses, en milliers de francs ou en centimes ? L'âge est-il défini en terme 
d'années entières ou en fractions d'années (par exemple 15 ans et demi) ? 

Les valeurs, (donc les modalités), que peut prendre une variable quantita- 
tive sont parfois si abondantes que pour des raisons de commodité, ces valeurs 
sont regroupées en classes. Par exemple, la variable “Age” est parfois définie 
selon des tranches d'âge exprimant des modalités telles que 0-4 ans, 5-9 ans, 
10-19 ans, etc. La variable “revenu” est parfois dichotomisée (réduites à deux 
classes) selon les catégories “faible revenu" et “revenu élevé”. Ceci n'empêche 
pas de considérer ces variables réduites ou dichotomisées comme des variables 
quantitatives. 

Une distinction fondamentale concernant les variables quantitatives est celle 
effectuée entre les variables discrètes et les variables continues. 


« Variables discrètes 


Une variable quantitative est dite discrète si l'étendue des valeurs possibles 
est dénombrable, c'est-à-dire si les valeurs peuvent étre énumérées sous la forme 
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d'une liste de chuffres (a1,42,...) ou plus souvent d'entiers naturels (0, 1, 2, 
3... .]- 
Quelques exemples de variables discrètes sont : 


— le nombre de personnes dans une famille : 


le nombre de mots dans une phrase ; 
— le nombre d'accidents survenus dans une journée ; 


- Je nombre d'étoiles visibles à un certain moment de la soirée. 


Il faut noter que, dans les deux premiers exemples, les valeurs possibles 
sont des entiers naturels 1, 2, 3,..., alors que dans les deux derniers exeruples, 
la valeur zéro peut aussi être admise, donnant ainsi comme valeurs possibles 
l'ensemble {0,1.2,3,...}. 


s« Variables continues 


Une variable quantitative est dite continue si les valeurs possibles ne sont 
pas dénombrables. L'ensemble de ces valeurs est constitué par la totalité de 
l'intervalle défini selon l'étendue de la variable, Citons quelques exemples de 
variables continues : 


- Le poids d'un nouveau-né ; 
— la longueur d'une table ; 
- |a fréquence d'une onde ;: 


- Le volume d'un chargement. 


En principe, les variables continues peuvent être mesurées exactement. Le 
poids peut être estimé au gramme près. Mais il pourrait l'être encore plus 
précisément, par exemple au 10° où au 100° de gramme près. Théoriquement, 
on peut toujours obtenir plus de précision pour exprimer les modalités de ces 
variables. C’est pourquoi de telles variables sont dites continues. 


« Échelles d'intervalles et de rapports 


Les variables quantitatives, continues ou discrètes, sont mesurées selon des 
échelles d'intervalles ou de rapports. Ceci veut dire que l'échelle de mesure 
permet les opérations arithmétiques. Par exemple, la variable “poids” se mesure 
sur une échelle de rapport car on peut ajouter des poids différents pour obtenir 
un poids total, on peut aussi dire que le poids de la personne À est le double du 
poids de la personne B. Ces types d'opérations ne sont pas possibles dans le cas 
des variables qualitatives mesurées à partir d'échelles nominales ou ordinales. Il 
n'y a pas de sens À faire la somme des professions pour trouver une profession 
totale ! On ne peut pas dire que la profession À est le double de la profession B ! 

Les échelles d'intervalles différent des échelles de rapports en ce qui concerne 
la position du point zéro. Dans une échelle d'intervalles, ce point est déterminé 
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arbitrairement. Îl ne représente pas l'absence complète de la caractéristique 
mesurée. Notre calendrier étant une échelle d'intervalles, l'année zéro ne signifie 
pas un commencement absolu. En revanche, dans l'échelle de rapports, le zéro 
signifie l'absence complète de l'attribut étudié, Par exemple zéro franc signifie 
“pas d'argent”. 


- Une variable décrit un aspect d'une population, par exemple, l'âge, l'état 
civil, le revenu, le nombre d'enfants. La valeur d'une variable varie d'un 
élément de la population à l'autre. 


- On fait une distinction entre les variables qualitatives (ex : “état civil”) 
et les variables quantitatives (ex : “revenu” |} ; les variables discrètes (ex : 
“nombre d'enfants” } et les variables continues (ex : “âge” }. 


- Une variable qualitative peut être mesurée sur une échelle nominale ou 
ordinale, une variable quantitative sur une échelle d'intervalles ou de rap- 
ports. 


2.3 Observation 


Considérons la variable âge au dernier anniversaire observeé pour chaque élé- 
ment d'une population donnée. Les valeurs résultantes constituent les observa- 
tions de l'étude. Par exemple, pour une population de cinq personnes : Jean, 
Marie, Thérèse, Luc et Thomas, les observations pourraient être : 


19 ans, 21 ans, 20 ans, 19 ans et 22 ans. 


Elles représentent, respectivement, l'âge des cinq personnes. Pour une vari- 
able qualitative, les observations ne seraient pas des chiffres mais des catégories. 
Par exemple, la variable “sexe” observée sur La population précédente donnerait 
les observations suivantes : 


H, FE, F, Het H, 


avec H représentant la catégorie “homme” et F la catégorie “femme”. On note 
donc qu'une seule variable donne lieu à plusieurs observations. 

Par convention, on utilise les lettres minuscules de l'alphabet pour représen- 
ter les observations, indexées par un chiffre entier pour distinguer les observa- 
tions correspondant à différents individus. Donc, les observations obtenues sur 
une variable quelconque X seront exprimées par : 


Tps Es ss ns 


où n représente Le nombre d'observations. 

Les observations ont des valeurs fixes ; elles sont propres à chacun des élé- 
ments de la population. La variable, en revanche, comme le mot l'indique, est 
variable, Sa valeur varie d'un élément de la population & l'autre. 


Les résultats observés d'une ou de plusieurs variables sur une population 
constituent les observations. 
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2.4 Données 


Nous avons jusqu'ici emplové le mot “observation” pour parler des valeurs ou 
catégories des variables, observées sur les unités statistiques d'une population. 
Nous avons signalé, au début du chapitre également, que les observations four- 
nissent les données de l'étude. Alors comment passe-t-on du concept d'observa- 
tion à celui de données ? 

Si une enquête porte sur p variables et n individus, l'ensemble des obser- 
vations récoltées peut se présenter sous forme d'un tableau des observations 
ou tableau individus/caractères à n lignes et p colonnes. Les n unités sta- 
tistiques sont placées en lignes et les p caractères ou variables sont placés en 
colonnes. Chaque individu est ainsi décrit selon les modalités des variables 
choisies pour l'enquête. 

D'une manière générale, le tableau individus/caractères se présente sous la 
forme du tableau 2.1 ci-dessous : 


Tableau 2.1 : Individus/caractères 


caractères ou variables 
individus À: A2 ss À; seu Xp 


LE | 11 T13 vus T1 Lip 
Le L] Tr pa Ta; 44 Top 
Li 1 9 va a Lij aa a ip 
En Tn1 Tn3 +45 Ty LL Lip 


Chaque individu à est représenté par un numéro d'ordre : 4 = 1,2,...n, et 
également chaque variable X est indicée d'un numéro d'ordre correspondant : 
j=1,2...7 

Aünsi, r;:, est la valeur prise par la j-ème variable pour le i-ème individu. 

Quand les variables sont des variables quantitatives, les colonnes corres- 
pondantes seront formées de chiffres. En revanche, lorsque les variables sont 
qualitatives, les colonnes correspondantes contiendront des modalités non nu- 
mériques (catégories). 

Mis sous forme de tableau individus/caractères, les résultats de l'enquête sur 
les femmes et la discrimination aux États-Unis, dont on a déjà parlé au chapitre 
1, donneraient lieu au tableau 2.2 : 

Les r;; correspondent aux observations relevées auprès des n individus de 
l'enquête, Les valeurs prises par ces observations forment ce qu'on appelle aussi 
les données de base, données initiales ou données individualisées. Ces données 
résultent directement de l'observation des unités statistiques, c'est pourquoi on 
considère généralement les expressions données de base, données initiales, 
et données individualisées comme des synonymes du mot observation. 
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Tableau 2.2 : Résultats de l'enquête sur les femmes et la discrimination 


caractères ou variables 


individus Xi =sexe X2= grade X, = promotion 
iy = Jean y = H Ti2 = À Z;=N 
ia = Séverine ty = FE Tos = 8 T9, = N 
i = Béatnce za = F zur = z4; = P 
in, = Nicole En =F Æn2 = 10 Ænj = F 


F = Femme ; H = Homme ; P = Promuie) ; N = Non promule) 


Mais la notion de données à un sens beaucoup plus large que le terme “ob- 
servation”. Quand on parle de données, on ne fait pas seulement référence aux 
données de base, mais également à toutes les transformations que l'on a pu faire 
à partir de ces données initiales. Si l'observation est évidemment toujours à la 
base des données, il arrive fréquemment que la forme sous laquelle l'observation 
a été obtenue ne soit pas adaptée à l'analyse que l'on souhaite faire. Cela oblige 
alors le statisticien à effectuer une transformation des données, c'est-à-dire à 
réécrire les observations d'une autre manière. 


2.4.1 Exemples de transformation de données 


1. Les catégories des variables qualitatives sont codées avec des valeurs nu- 
mériques afin de faciliter leur traitement informatique. Dans le cas de la 
variable “sexe”, par exemple, on pourrait noter 0 pour la catégorie homme 
et 1 pour la catégorie femme. 


2. Quand le nombre de modalités est grand, les observations se rapportant à 
une variable quantitative peuvent être regroupées en classes. Les âges et 
le revenu sont généralement analysés à partir de classes d'âges et classes 
de revenus. 


3. Pour la présentation graphique de certains phénomènes ou pour leurs 
analyses statistiques, il peut être préférable d'utiliser les logarithmes des 
observations plutôt que les données de base. 


Une fois recodée, transformée, la donnée initiale n'est évidemment plus ls 
mème. Dès ce moment, on n'utilisera donc plus le terme observation mais le 
mot donnée, 

D'une manière générale, les données forment un ensemble de nombres, de 
lettres ou de catégories, présentées le plus souvent sous forme de tableaux. Elles 
sont ensuite organisées et souvent transformées de manières à pouvoir être uti- 
lisées et analysées selon des méthodes statistiques déterminées. 
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Les données ne sont donc pas des nombres ou des lettres quelconques. Elles 
contiennent de l'information dans le sens où elles se réfèrent à un phénomène 
particulier et qu'elles permettent de le décrire et de l'analyser. 

Des données contiennent de l'information alors qu'un nombre, adjectif ou 
toute autre forme de description peuvent ne pas en contenir. 


2.4.2 Collecte de données 


Le premier aspect à considérer, chaque fois que des données doivent étre collec- 
tées, est de bien préciser la raison de cette collecte et à quels usages les résultats 
vont servir, $i ces données n'ont pas de but précis ni d'utilisation concrète, 
pourquoi les collecter ? 

Un deuxième aspect de la collecte de données est de déterminer quelles 
variables seront à observer, Toutes les variables pertinentes pour étudier un 
phénomène devraient &tre considérées, c'est pourquoi il est essentiel de déter- 
miner quelles données collecter tout en sachant pourquoi elles sont collectées. 

Un troisième aspect de la collecte de données est comment et où collecter 
les données. Le statisticien peut être très utile pour désigner et planifier l'in- 
vestigation et déterminer comment et où collecter les données. Le comment 
et le où de la collecte de données sont intimement liés avec le plan et le type 
d'investigation. 

Deux autres aspects à considérer sont quand et par qui les données doivent 
ètre collectées. 

En plus des aspects du pourquoi, quoi, comment, où, qui, et quand de la 
collecte de données, il est impératif d'avoir une description complète et écrite 
de toutes Les données obtenues. 


2.4.3 Types de collecte de données 


Les trois principaux types de collecte de données sont les investigations ou études 
observationnelles, les enquêtes par sondage et recensements, et les investigations 
expérimentales. 

Dans les investigations basées sur l'observation, on enregistre toutes 
les observations disponibles sans nécessairement chercher à les rendre repré- 
sentatives de La population. Ces enregistrements de données, même s'ils sont 
utiles au but pour lequel elles ont été collectées, peuvent être moins utiles à 
un autre but à cause de la méthode utilisée pour déterminer si on doit ou non 
garder une observation. Ce type de données est souvent utilisé dans les études 
simplement à cause de leur disponibilité. 

Lors des enquêtes par sondage et recensements, la population à étudier 
est définie et ensuite on étudie soit l'ensemble des éléments (recensement) soit un 
échantillon. Les enquêtes par sondage sont de deux types : enquêtes par sondage 
probabilistes et enquêtes par sondage non-probabilistes, Dans le premier type, 
la probabilité de sélectionner les unités de la population est connue, alors que 
ce n'est pas le cas dans le deuxième type. 
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Venons-en au troisième type de collecte de données, les investigations ex- 
périmentales. Chaque expérience implique la collecte de données et a un plan 
de procédure, certaines impliquant la randomisation et d'autres pas. Lors de 
l'expérimentation, on collecte des données sur chaque unité expérimentale afin 
d'obtenir de l'information pour comparer les entités d'intérêt. 


2.5 Historique 


Il est vraisemblable que le type de données le plus ancien remonte à l'antiquité 
et notamment au recensement de la population. L'auteur latin Tacite nous 
apprend que l'Empreur Auguste donna l'ordre de compter tous les soldats, tous 
les navires et toutes les richesses du royaume. 

On retrouve la trace de recensement dans l'évangile de Saint Luc qui rapporte 
que “César Auguste prit un décret prescrivant le recensement de toute la terre 
{..}) et tous allaient se faire inscrire, chacun dans sa propre ville”. Aïnsi donc à 
cette époque déjà on connaissait une forme de statistique, dont le nom, dérivé 
du latin “status” (l'Etat), trahit son origine administrative. 


2.6 Exercices 


1. Le tableau ci-dessous présente le nombre d'élèves et d'étudiants par caté- 
gories d'école dans un certain pays, pour deux années consécutives. 
À partir de ce tableau : 


(a) Définir la population. 
(b} Définir la variable. 


{ce} Déterminer Le type de variables dont il s'agit (qualitative, quantita- 
tive, discrète, quantitative continue). 


(d}) Donner trois autres exemples de ce type de variable. 


Catégories d'écoles 143} l'u64 1994/1998 


Fréscolsire 149 30Û L54 90 
Degré primaire 423 400 437 400 
Degré secondaire | 287 200 284 500 
Degrés primaire et secondaire | {apücial} 41 400 A2 SL 
Total scolarité obligatoire *52 000 To4 300 
Ecoles prèp. à la maturité 5 200 ë 70 
Autres écoles de formation géntrale 15 200 15 T0 
Ecoles prép. aux professions de l'euseignement 9 500 ÿ 500 
Formation professionelle 11 00 148 DOM 
Mlaturité professionnelle J30 GEM) 
Total degré secondaire Il 378 300 278 30û 
Non univéraitairé ST 600 58 GO 
Universitaire Q1 10 #9 CN 


Toiul degré tertiaire 148 700 lis 200 
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2. Le tableau ci-dessous présente la répartition de la population d'un pays 
par groupes d'âge : 


classe d'âge effectif % 
( à 19 ans 1 621 600 23,3 
20 à 39 ans 280 900 431,3 


40 à 64 ans 2 147 100 30,8 
65 à 79 ans T4ë 90 10,7 
80 ans et plus 272 OÙ 3,9 


À partir des informations contenues dans le tableau ci-dessus : 


(a) Définir la population. 
(b} Définir la variable. 


{c) Déterminer de quel type de variables il s'agit (qualitatives, quantita- 
tives discrètes ou quantitatives continues). 


(d) Préciser les modalités de cette variable. 
(e} Donner trois autres exemples de ce type de variables. 


3. Indiquer de quel type sont les variables présentées ci-dessous : (qualita- 
tives, quantitatives discrètes ou quantitatives continues). 


(a) L'état-civil des habitants de la Suisse. 

{b} La taille des étudiants de l'Université de Harvard. 
(c) Le nombre de pages d'un support de cours. 

(d) 

(e) Le nombre de ventes d'un appareil électro-ménager. 


Les professions reconnues en Suisse. 


(f} Le nombre d'accidents non-professionnels. 
(g) Le nombre d'enfants dans une famille. 
(h) Le sexe des élèves d'une classe secondaire. 
{1) La nationalité des élèves d'une classe. 
(jà Le poids d'un nouveau né. 
(k) Le nombre de télévisions par famille. 
{l) Le degré de qualification du personnel d'une entreprise. 
(m} La couleur des yeux des étudiants de l'Umiversité de Neuchâtel. 


{n) Le nombre de jours de pluie pendant le mois d'août. 
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4. Pour chaque ensemble de données ci-dessous : 


Nombre de jours de chômage pour 40 personnes : 
180 10 30 50 420 30 180 360 
200 30 360 120 500 200 30 420 
360 470 9360 150 180 260 30 50 
180 720 420 180 40 500 120 180 
194 400 30 360 40 400 180 200 


Qualité de production de 30 produits : 
D = défecteux 
Q = de bonne qualité 


QDQDQQQGQQQ 
D Q Q D Q D D Q Q Q 
D DDQQQQQ QD 


(a) Définir la population. 
{b) Définir la variable. 
{c) Préciser les modalités de cette variable. 


(d) Déterminer de quel type de variables il s'agit (qualitatives, quantita- 
tives discrètes ou quantitatives continues). 


ANDREI NIKOLAEVICH KOLMOGOROV 
(1903 — 1987) 


Né à Tambov, Russie en 1903, Andreï 
KÉolmogorov est un grand fondateur des 
probabilités modernes, En 1920, il entre 
à l'université d'état de Moscou et fait ses 
études en mathématiques, histoire et 
métallurgie. En 1925, il publie son 
premier article en probabilité sur les 
inégalités des sommes partielles des 
variables aléatoires qui devient la base 
Principe ee (une 2e (OmRAIE (6 prOCESEUR 

Il obtient son doctorat en 
1929 et publie 18 articles qui portent sur 
la loi des grands nombres ainsi que sur la 
logique intuitive. Il est nommé 
professeur ordinaire à l'umversité de 
Moscou en 1931. En 1933, il publie son 
monographe sur La théorie des 
probabilités Grundbegniffe der Wahr- 
scheinlichkeitsrechnung d'une manière 
très rigoureuse débutant par La base 
axiomatique fondamentale des pro- 
babilités d'une manière comparable de 
celle de Euclide sur la géométrie 
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Représentations graphiques 
des données 


Le statisticien se trouve souvent confronté à une quantité imposante de données 
dont il est difficile de tirer des conclusions probantes. Pour une meilleure in- 
terprétation, il est primordial que les données traitées soient triées et classées, 
Pour que l'organisation des données soit efficace, elle doit être simple et par- 
lante. Cela implique qu'elle doit retenir l'information essentielle contenue dans 
ces données, sans pour autant négliger Les aspects particuliers de leur structure. 
À cet eflet, les outils statistiques disponibles sont les tableaux statistiques ac- 
compagnés de leur représentation graphique. Ces dernières permettent souvent 
de mieux mettre en évidence les traits dominants des données. 

Dans ce chapitre, nous étudions les principales possibilités d'organiser des 
données numériques en forme de tableaux et de les représenter graphiquement 
par des diagrammes, Les tableaux caractérisent la répartition des unités sta- 
tistiques selon les variables observées et donnent lieu à des distributions de 
fréquences qui englobent l'information essentielle des variables à étudier, La 
nature des distributions est mise en relief visuellement par des diagrammes tels 
que bâtons empilés, pie-chart, histogrammes et les courbes de fréquences. 
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3.1 Variables qualitatives 


Prenons comme premier exemple un cas concret, Imaginons une étude de lexi- 
cographie qui porte sur la présence des voyelles et des consonnes dans un texte 
rédigé en français, en l'occurence La pièce de théâtre “La jalousie du Barbouillé” 
de Molière. La scène | commence par la phrase : 


“Il faut avouer que je suis Le plus malheureux de tous les hommes. J'ai une 
femme qui me fait enrager...” 


Pour étudier l'apparition des vovelles et des consonnes dans ce texte, on code 
chaque voyelle par La lettre À et chaque consonne par B. On obtient donc la 


séquence : 


AB BAAB ABAAAB BAA BA BAAB BA BBAB BABBAABAAB BA BAAB 
BAB BABBAB. B'AA ABA BABBA BAA BA BAAB ABBABAB... 


Ceci constitue Les données de notre étude. Il s'agit d'organiser cette séquence 
de données sous forme d'un tableau statistique simple et parlant. 


3.1.1 Répartition de population 


Lans cet exemple, la population consiste en un ensemble de lettres. La variable 
est une variable qualitative avec deux modalités : les vovelles dont le code est À 
et les consonnes dont le code est B (une variable dichotomique). Les observations 
sont les 63 valeurs À ou B présentées ci-dessus, L'opération de mise en ordre de 
ces observations consisté à répartir la population, c'est-à-dire les modalités de 
la variable, en deux parties : les éléments ayant la valeur À (les voyelles) d'une 
part, et les éléments ayant la valeur B (les consonnes} d'autre part, Ensuite, 
on indique dans un tableau la fréquence pour chaque modalité (A ou B) de la 
variable, En ne retenant que des nombres, on suppose que du point de vue de 
la présence des voyelles et des consonnes, la seule information pertinente est la 
fréquence des vovelles et des consonnes dans le texte. Ceci donne le tableau 
statistique 4.1. 


Tableau 3.1 : Répartition des lettres 
a ——_—_———————"—"—"——"—"—"—"— EEE 


Variable = Effectifs 
type de lettres ou fréq. absolues 
Catégorie 1 = A 32 
Catégorie 2 = B 31 
Total 63 


À = vovelle : B = consonne 


Ce tableau indique qu'il y a à peu près autant de voyelles que de consonnes 
dans Le texte de Molière, On pourrait comparer ce résultat avec le ratio corres- 
pondant dans un texte quelconque, par exemple, la première page de ce livre. 
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3.1.2 Distribution de fréquences 


La répartition de la population peut être exprimée en termes absolus, comme 
dans le tableau 4.1 ou en termes relatifs, c'est-à-dire en pourcentages ou en 
fractions. Le résultat est appelé la distribution de fréquences. 

Plus généralement, considérons une variable X avec k modalités m3, ma,..., 
mx observées pour une population ayant n éléments. Désignons par n1 le nom- 
bre d'éléments ayant pour modalité m1, n2 le nombre d'éléments ayant pour 
modalité ms, et ainsi de suite. Les nombres n1,...,n4 ainsi obtenus indiquent 
la répartition de la population concernant la variable À. Leur somme est égale 
au nombre total d'éléments de la population, n, +n2+-:.+n; = n. Afin de 
simplifier la notation, la somme d'un ensemble d'éléments est indiquée par le 
symbole À comme l'expression suivante : 

k 


Sn=n 


La fréquence relative d'une modalité mm, à = 1,...,k, est définie par le 
rapport : 
Le Gel 
| ri ë CS | : 
L'ensemble des ratios f1,...,/fL calculés pour les différentes modalités ma, 


….. mx de la variable X est appelé la distribution de fréquences relatives de La 
variable. Le tableau 4.2 résume ces informations : 


Tableau 3.2: Répartition de la population et distribution 
de fréquences relatives 


Variable : Effectifs Fréq. 
x ou frég. absolues relatives 
M ri n/rt 
Ma 3 nain 
Ml fx nn 
Total LL 1 


L'exemple des voyelles et des consonnes correspond au tableau 4.4 avec & = 2 
et my=A (voyelle) et m2=B (consonne). 


Tableau 3.3: Répartition des lettres selon leur type et distribution 
de fréquences relatives 


Variable : Effectifs Fréq. 
type de lettres ou fréq. absolues relatives 

Mi = À th = 32 nn = 0.51 

mo = B na = dl najn = 0.49 


Total n = 63 L 
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3.1.3 Diagrammes en bâtons 


La répartition d'une population et la distribution de fréquences peuvent être 
visuellement représentées par un diagramme en bâtons. 

Le diagramme en bâtons (ou graphique à colonnes) est une représentation 
graphique employée pour représenter les variables qualitatives ou plus générale- 
ment les données mesurées sur des échelles nominales ou ordinales. Une colonne 
verticale ou horizontale est dessinée pour chaque modalité de la variable consi- 
dérée. La hauteur (ou la longueur) représente le nombre de membres de chaque 
classe. 

En se référant à la notation introduite précédemment, un diagramme en 
bâtons représentant une variable X avant # modalités al, …, ak et les effectifs 
"1,...,7x ressemblerait au diagramme de la figure 3.1. 


Figure 3.1 : Diagramme en bâtons, forme générale 


Aucun ordre n'est supposé pour les échelles nominales. Souvent les moda- 
lités sont ordonnées sur Le graphique dans le sens des fréquences croissantes ou 
décroissantes ou selon l’ordre alphabétique des libellés. 

Dans le cas des données mesurées sur des échelles ordinales, les catégories 
sont rangées selon leur ordre naturel tout au long de l'axe (ordonnée ou abscisse 
selon que l'on considère des colonnes horizontales ou verticales). La figure 4.2, 
tirée du tableau 3.4 illustre cette situation. 


Tableau 3.4: Répartition d'une population d'employés 
selon leur qualification professionnelle 


Variable : Effectifs 
qualification professionnelle ou fréq. absolues 
qualifié 13 
sermi-qualifié 10 
non-qualifié 17 


Total 40 
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Figure 3.2 : Diagramme relatif au tableau 3.4 


3.1.4 Diagramme circulaire (pie-chart) 


La répartition d'une population et sa distribution de fréquences sont parfois 
plus expressives sur le plan visuel lorsqu'on les représente à l'aide d'un dia- 
gramme circulaire où pte-chart, Un diagramme circulaire consiste à représenter 
la population totale par un cercle et à diviser le cercle en tranches, de façon pro- 
portionnelle aux effectifs de chaque modalité de la variable considérée. Ainsi, on 
obtient une représentation graphique de la répartition relative de la population, 
autrement dit de la distribution de fréquences. 

Le diagramme circulaire représenté à la figure 3.3 est construit à partir de 
l'exemple des vovelles et des consonnes du tableau 4.1. 

La représentation graphique du deuxième exemple concernant la répartition 
des employés selon la qualification professionnelle est donnée à la figure 3.4. 


rares 
Figure 3.3 : Diagramme circulaire d'une étude de lexicographie 


D'une façon générale, en utilisant l'approche graphique, il est nécessaire de 
prendre des précautions afin d'éviter de donner une impression fausse qui pour- 
rait induire en erreur le lecteur. En effet, en résumant des données sous forme 
graphique, on peut exagérer indûment certains éléments et provoquer ainsi, si 
l'on n'y prend garde, des interprétations erronées. Par exemple, en jouant sur 
l'axe horizontal avec les espaces entre les colonnes; ou en diminuant la hauteur 
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de l'axe vertical; ou en choisissant un ordre délibéré pour les colonnes dans le 
cas des diagrammes en bâtons; ou bien de façon plus générale en ne donnant 
pas assez d'informations sur les données originales pour masquer certains effets, 
ou en en donnant trop. 


Figure 3.4 : Diagramme circulaire relatif au tableau 3.4 


3.1.5 Variables à modalités multiples 


Une variable à modalités multiples est une variable qualitative où à une obser- 
vation correspond plus d'une réponse ; par conséquent, la somme des fréquences 
relatives n'est pas égale à 1 (ou, en d'autres termes, la somme des pourcentages 
dépasse 100%). 

Imaginons qu'on demande à un groupe de 180 acheteurs d'une marque don- 
née de voiture quelles sont les raisons qui les ont poussés à acheter cette marque 
plutôt qu'une autre. On obtiendrait alors les réponses suivantes : 


Tableau 3,5 : Réponses à la question "Pourquoi avez-vous choisi la 
marque X lors de l'achat de votre voiture 7?” 


Variable : Effectifs Fréq. Pourcentage 
Raison du choix ou fréq. absolues relatives Fi 
confort 130 0,722 12,2 
rapidité 80 O0, 444 44, 4 
puissance 17 0, 094 9,4 
prix 150 0,833 83,3 
allure 90 0, 500 50, Q 
taille 10 0,056 5,6 
autres raisOns 108 0, 600 60,0 
Total 585 > 180 3,249 > 1 324,9 > 100 


Comme les raisons qui poussent à l'achat d'une voiture peuvent être multi- 
ples (on peut choisir la marque X en raison, par exemple, de son confort, de sa 
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puissance et de son prix), on observe effectivement que la somme des fréquences 
relatives est supérieure à 1. Par conséquent, la somme des pourcentages est 
également supérieure à 100. 

Avec ce type de variables, on ne peut pas utiliser de représentations telles 
que le diagramme circulaire ; en revanche, on peut utiliser les diagrammes en 
bâtons. 


3.2 Variables quantitatives discrètes 


3.2.1 Distribution de fréquences 


Les modalités d'une variable quantitative discrète sont des valeurs numériques, 
exprimées souvent en chiffres entiers. Les modalités sont donc discontinues 
comme pour une variable qualitative mais suivent un ordre naturel selon une 
échelle ordinale. La construction d'un tableau statistique (et sa représentation 
graphique) à partir de données quantitatives discrètes suit les mêmes règles déjà 
énoncées pour les données qualitatives d'échelle ordinale. 

On répartit les unités statistiques d'une population selon les différentes 
valeurs discrètes de la variable, Ceci donne la répartition de la population. 
Les effectifs exprimés en terme de fractions de l'effectif total donnent la distri- 
bution de fréquences relatives de la variable. Les résultats peuvent étre présentés 
sous forme de tableau statistique, de diagramme en bâtons ou de diagramme 
circulaire comme dans le cas des variables qualitatives d'échelle ordinale. 

Considérons, par exemple, un ensemble de 1 250 ouvriers dans le cadre d'une 
étude sur La récurrence du chômage (personne se trouvant au chômage deux fois 
ou plus sur une période donnée). Les unités statistiques de la population sont 
les ouvriers. La variable, que nous désignons par X, est le nombre de fois qu'un 
ouvrier à été au chômage pendant une durée spécifiée, par exemple, une année. 
Les modalités de la variable sont ainsi O0, 1, 2, 3, ... 


Tableau 3.6 : Répartition des ouvriers selon le nombre de périodes 
de chômage et distribution de fréquences relatives 


Nombre de périodes Effectifs Fréq. Pourcentage 
de chômage ou frég. absolues relatives F0 

Ü 1 150 (}, 920 92,0 

1 50 O, (MU 4,0 

2 30 Ü, 024 2,4 

3 20 0,016 1,6 

Total 1 250 1 100, 


On a donc 1 250 observations de la forme x = 0, x = 1, x = 2,... L'ob- 
servation correspondant à x = 0 veut dire que l'ouvrier en question n'a connu 
aucune période de chômage pendant l'année; x = 1 indique une seule période 
de chômage ; x = 2 indique deux périodes de chômage ; et ainsi de suite. 
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Les 1 250 observations de l'étude peuvent être exprimées en termes de ré- 
partition de fréquences et de pourcentages comme indiqué dans le tableau 3.6. 


Le tableau montre que parmi les 1 250 ouvriers, 1 150 ou 92% n'ont connu 
aucune période de chômage durant l'année de référence, 50 ouvriers ont été au 
chômage exactement une fois (4%), 30 l'ont été deux fois (2,4%), et 20 trois fois 
(1,6%). La récurrence du chômage est donc de : 


2,4 + 1,6 = 4,0%. 


Il faut noter qu'en construisant le tableau on a supprimé les valeurs x — 4, 
x = 5,..., leur fréquence étant égale à zéro. 


Sur la base du tableau ainsi obtenu, on peut représenter les informations 
en construisant un diagramme en bâtons ou un diagramme circulaire, suivant 
les mèmes règles énoncées dans la section précédente concernant les variables 
qualitatives (figures 4.5 et 4.6). 


On note que le diagramme en bâtons a été dessiné de façon à ce que les 
colonnes correspondant à chacune des modalités successives soient contigües, 
alors que dans le cas des variables qualitatives les colonnes étaient distantes les 
unes des autres. Cette différence s'explique par la nature même des variables 
considérées : les valeurs numériques des variables de type quantitatif imposent 
une continuité, au contraire des variables qualitatives. 


On note aussi que le diagramme circulaire produit un graphique peu révéla- 
teur dans le cas où une modalité domine. 


Figure 3.5 : Nombre de périodes de chômage en une année 
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X=0 


Figure 3.6 : Nombre de périodes de chômage en une année 


3.2.2 Distribution de fréquences cumulées 


Cette particularité de continuité autorise le cumul des effectifs ou des fréquences 
de distribution d'une variable quantitative discrète. On dit alors qu'on a obtenu 
une distribution de fréquences cumulées. 

Comme son nom l'indique, une distribution de fréquences (absolues ou re- 
latives) cumulées s'obtient en additionnant les fréquences de la distribution d'o- 
rigine en commençant par la valeur la moins élevée de la variable. On exprime 
les fréquences relatives cumulées de la façon suivante : 


F = —=f 
B=—=/j+}h 


F3 = © s=h+ + 


++ + 
Fi = = hi+ fat ++ fi 
Ni + late +n 
Fe = = fi + fa + fa +. + fr = 1. 


Le dermier terme par sa définition est toujours égal à l'unité. 
Le tableau 3.7 présente la distribution de fréquences et la distribution de 
fréquences cumulées pour l'exemple du chômage décrit précédemment. 
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Tableau 37: Distribution de fréquences et distribution 
de fréquences cumulées 


Variable : Frixy. Fré, Fréd. Fréd. Pourcen-  Pourcen- 
X absolues relatives  abeolues relatives tagés tapes 

cumulées cumulés 5 cumulés 

z=0 1150 0,920 1150 0,920 92, 0 92, 0 

=] 50 0, M0 1200 0, #60 À, Ü 96, 0 

*=12 30 0,024 1230 O, 4 2, 4 08, À 

r=3 20 0,016 1250 1, XXI 1,6 1€X), O 
Total 1250 1, 000 100, 

X = nombre de fois qu'un ouvrier a été au chômage 


pendant un laps de temps spécifié 


La dernière colonne du tableau donne les pourcentages cumulés. Ainsi, le 
chiffre 96,0, par exemple, indique le pourcentage des ouvriers qui ont connu au 
plus une période de chômage. De même, le chiffre 98,4 indique le pourcentage 
des ouvriers ayant eu au plus deux périodes de chômage. 


3.3 Variables quantitatives continues 


Une variable quantitative continue peut prendre n’importe quelle valeur à l'in- 
térieur d'un certain intervalle de variation qui lui est associé. Les observa- 
tions obtenues à partir d'une variable continue sont donc espacées. Leur organ- 
isation sous la forme d'un tableau statistique nécessite de délimiter au préalable 
l'intervalle de variation de la variable. Souvent, on procède en divisant l'inter- 
valle de variation en classes de manière à ce qu'il y ait un nombre raisonnable 
de classes, exhaustives et mutuellement exclusives. 


3.3.1 Organisation par classes 


Considérons la variable continue X dont les valeurs se situent dans l'intervalle 
de variation défini par les bornes extrèmes «a et b. On divise cet intervalle en 
k classes, par exemple, de ao à a: de ai à a: ...: de ax_1 à ax. Afin qu'elles 
soient exhaustives, on spécifie l'étendue des classes par les valeurs extrêmes: 
do = à et ax = b. Afin que les classes soient mutuellement exclusives, on précise 
les bornes supérieures de chacune d'entre elles comme #1,a@3...et ag_1. Ainsi, 
la valeur a; est inclue dans la classe ag — a plutôt que dans a; — as. 

Après cette opération de division en classes complètes, nous avons une si- 
tuation équivalente à celle des variables qualitatives ou des variables quantita- 
tives discrètes dans laquelle les classes jouent le rôle de modalités. On peut donc 
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compter le nombre d'observations dans chaque classe : 


fin —= nombre d'observations de X entre ay et a 


na = nombre d'observations de X entre a et as 


fi nombre d'observations de X entre ag_1 et ax 


Il 


avec fa +. + = donnant le total des observations. 


Considérons, par exemple, la question suivante : comment la population 
du canton de Neuchâtel est-elle répartie selon le revenu Ÿ Chaque année, en 
mars, les contribuables sont invités à remplir une déclaration fiscale portant sur 
l'année précédente et sur la base de laquelle leur revenu imposable est déter- 
miné. Au total, 60528 contribuables ont été pris en compte pour l'année fiscale 
1975/76. Comme il est impossible d'appréhender efficacement un aussi grand 
nombre d'observations, il est essentiel de les organiser systématiquement, en les 
regroupant par classes de revenu. Le tableau 48 tiré de la brochure : “Impôt 
fédéral pour La défense nationale 1% période" Berne 1981, présente un tel re- 
groupement. 


Tableau 3,8 : Répartition de la population du canton de Neuchâtel 
selon le revenu 


Classe de revenu Fréq. Pourcen- 


net en milliers absolues tages 
de francs ou effectifs 7 
Ü — 10 238 0,47 
10 — 20 13 175 21,77 
20 — 50 40 316 66,61 
50 — 8Û 5 055 8,35 
80 — 120 1 029 1, 70 
120 et plus 670 1,10 
Total 60 528 100, 00 


3.3.2 Histogramme 


La distribution de fréquences d'une variable quantitative peut être visualisée à 
l'aide d'un histogramme. Par exemple, l'histogramme des revenus de la période 
1975 /76 est présenté dans la figure 3.7. 


- Comment lire un histogramme 


Une particularité de l'histogramme est qu'il ne comporte pas d'échelle ver- 
ticale. Dans l'histogramme de la figure 4.7, l'échelle horizontale indique les 
revenus nets en milliers de francs, mais l'échelle verticale n'a pas de significa- 
tion particulière sinon celle de représenter la densité des revenus. 
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Figure 3.7 : Histogramme des revenus du canton de Neuchâtel 


En réalité, le graphique de la figure 3.7 comporte une série de blocs. Le 
premier d'entre eux couvre l'intervalle allant de 0 Fr. à 10 000 Fr., le second 
l'intervalle de 10 000 Fr. à 20 000 Fr., le troisième de 20 000 Fr. à 50 000 Fr. 
et ainsi de suite, jusqu'au dernier qui couvre l'intervalle allant de 80 000 Fr. à 
120 000 Fr. Ces intervalles sont appelés intervalles de classe. Le graphique est 
dessiné de sorte que la surface de chaque bloc soit proportionnelle au nombre de 
contribuables ayant un revenu fiscal compris dans l'intervalle de classe considéré. 

On peut vérifier qu'un histogramme représente les fréquences par La surface 
des blocs et non par leur hauteur. 

Pour mieux comprendre, supposons que nous désirons connaître le pourcen- 
tage approximatif des contribuables gagnant entre 20 000 Fr. et 50 000 Fr. 

Dans la figure 3.7, nous remarquons que le bloc recouvrant l'intervalle en 
question constitue environ les 2/3 de la surface totale de l'ensemble des blocs, 
ce qui indique qu'environ 2/3 (ou 66%) des contribuables ont un revenu situé 
entre 20 000 Fr. et 50 000 Fr. 

On relèvera également que l'axe horizontal s'arrête à 120 000 Fr. Cela ne 
signifie pas qu'aucune personne n'a dépassé ce revenu au cours de la période con- 
sidérée, mais plutôt que les valeurs supérieures à ce seuil n'ont pas été représen- 
tées sur le graphique. Comme on le voit dans le tableau 3.8, 1,10% seulement 
des contribuables avaient, à cette époque, un revenu net excédant le montant 
de 120 O00 Fr. ; la perte d'information ne porte donc pas à conséquence. 


e Comment construire un histogramme 


L'information de départ est une table de distribution, comme celle du tableau 
3.8 qui indique le nombre de contribuables ayant des revenus compris dans les 
différentes classes. 

Un tel tableau est construit sur la base de données individuelles, à savoir 
les revenus nets des 60 528 contribuables du canton de Neuchâtel en 1975 et 
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1976. L'affectation des contribuables à une classe en particulier doit respecter 
les règles relatives aux bornes des classes. 

Dans le tableau 4.8, la borne de gauche est inclue dans la classe et celle de 
droite en est exclue, Par exemple, dans la première ligne, 0 est inclu dans la 
classe alors que 10 000 en est exclu. Ainsi, cette première classe regroupe tous 
les contribuables qui gagnent plus de Q Fr., mais moins de. 10 000 Fr. Ils sont 
au nombre de 283, ce qui représente 0.47% des contribuables, On remarquera 
plus loin que 21,77% d'entre eux gagnent plus de 10 000 Fr., mais moins de 
20 OO0 FT., etc. 

Pour construire un histogramme correspondant à une table de distribution 
exprimée sous la forme de classes, il convient en premier lieu de créer un axe 
horizontal et de lui attribuer un hbellé et, en deuxième lieu, de dessiner les blocs. 
On pourrait étre tenté, en première approximation, de déterminer La hauteur 
de chaque bloc en fonction du pourcentage observé dans la classe. La figure 3.8 
montre ce qu'il arrive si l'on procède de cette manière. 


EPP PSI IEEE 


ü 0 ZA di 60 60 70 #] 60 TO 110 129 
sens jen mralbers ce Moins 


Figure 3.8 : Dessin erroné d'un histrogramme basé sur les pourcentages 


La classe principale, dans cet exemple, paraît beaucoup trop grande. Le 
problème vient du fait que certains intervalles de classe sont plus étendus que 
d'autres, ce qui signifie que les pourcentages observés ne sont pas comparables 
entre eux. Le 8,35% des contribuables ayant un revenu compris entre 50 000 Fr. 
et 80 000 Fr., par exemple, s'étend sur un intervalle (horizontal) plus grand que 
le 21,77% des contribuables gagnant entre 10 000 Fr. et. 20 000 Fr. 

Féaliser le dessin sur la seule base des pourcentages introduit donc une 
distorsion et provoque une représentation graphique erronée car exagérée pour 
les classes les plus étendues. De plus, cela va à l'encontre du principe énoncé 
précédemment, selon lequel un histogramme représente les fréquen-ces par la 
surface des blocs et non par leur hauteur. 

On considérera donc des intervalles identiques comme unités de base (en 
l'occurence 10 000 Fr.). Aïnsi, l'intervalle de la classe de 20 000 Fr. à 50 000 
Fr contient trois unités. Si nous considérons maintenant le tableau 4.8, nous 
constatons que 66,61% des contribuables sont placés dans cette classe, On peut 
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donc considérer, en fonction des données à notre disposition, qu'il y a 22,2% 
des observations dans chaque unité. Ce 22,2% (et non 66,61%) doit être utilisé 
pour déterminer la hauteur du bloc. 

On complètera l'histogramme en procédant de la même façon que précédem- 
ment (Figure 3.7) pour les autres classes. 

Il ressort donc que l'histogramme représente la distribution du phénomè- 
ne étudié comme si, à l'intérieur de chaque classe, les pourcentages étaient 
distribués uniformément. 

On peut ainsi formuler une règle : afin de définir la hauteur d'un bloc pour 
une classe donnée, il faut diviser le pourcentage observé dans cette classe par 
l'étendue de cette dernière (exprimée en nombre d'unités de base). 

Dans notre exemple, pour la classe 20 000 - 50 000, le pourcentage 222% 
signifie : pourcentage par tranche de 10 000 Fr. On peut comparer ce mode 
d'expression à d'autres mesures comme, par exemple, le nombre d'habitants par 
km*. 

Ainsi, écrire que le canton de Neuchâtel avait, en 1981, 200 habitants au 
km° signifie que si la population avait été uniformément distribuée, on aurait 
trouvé environ 200 personnes sur chaque km?, 

De méme, on peut dire que pour chaque tranche de 10 000 Fr. (dans la 
classe 20 000 - 50 000), en cas de distribution uniforme, on aurait 22,2% des 
contribuables (Figure 3.9). 

Quand on compare les surfaces des blocs d'un histogramme, il est utile de 
pouvoir se référer à une échelle verticale qu'on appellera échelle de densité. 
Elle met en évidence le pourcentage d'observations par unité de l'axe horizontal. 

L'histogramme des revenus reproduit dans la figure 4.9 a été dessiné avec 
une échelle de densité (l'axe vertical) indiquant le pourcentage d'observations 
par tranche de 10 000 Fr. Cette échelle de densité ne définit pas l'histogramme, 
elle contribue à sa compréhension. 


Ü 10 20 30 40 0 60 70 #60 60 100 110 120 
Bevenu (en milliers de francs) 


Figure 4.9 : Distribution des revenus du canton de Neuchâtel 
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e Histogramme à partir des données individuelles 


Considérons un deuxième exemple pour illustrer la manière appropriée de 
procéder à partir d'un tableau de données brutes. 

Lors d'un cours de statistique, en 1989, 42 étudiants ont été invités à indiquer 
leur taille et leurs poids. Le tableau 4.9 reproduit ces données, On notera que, 
dans cet exemple, nous sommes en présence de données brutes et non regroupées. 
Les données concernent un échantillon d'étudiants inscrits à l'Université pour 
l'année 1989/90, (nous supposons que cet échantillon a été tiré au hasard parmi 
l'ensemble des étudiants de l'Université, sans distinction de sexe). 


Tableau 3.9 : Taille et poids de 342 étudiants 


N° taille poids N° taille péids 
d'ordre en cm. eu kg. | d'ordre en cm. en kg. 
i 174 ü4 if 170 64 
4 175 d4 Lé 182 T2 
J 1Hü) td 14 1ës Gi) 
À ts] ü2 20 151 GT 
3 175 G1 21 1#1 Es) 
ü ll] EH] 32 178 52 
T 170 GE 23 L&C 72 
ë IT ES 24 1ät T8 
fl 187 g2 25 178 T1 
EU l'E Ti] 26 144 T4 
11 17% LELH aT 180 79 
12 112 05 28 Téntt Ti 
14 167 EL 25 1E5 2 
14 165 58 40 1T4 GE 
15 Lr4 M | 41 155 GC 
1ë 170 Gi] 32 165 LR 


taille OU fréq. taille CET (LESTE 
en Cm. vouces absolue | en cm. cences  aleolnés 

160 Î | 174 la} ä 
lé 175 f{ 2 
ILE 176 

163 177 / 

164 178 {tt} d 
165 HAT 4 179 EF 

166 LAÛ Î 4 
167 Î 1 181 ri i 
158 f} 2 142 #j À 
169 153 

170 1i1} 4 184 

171 ] 185 

172 Î 1 156 

73 187 ! 1 
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Le tableau 4.9 n'offrant pas une présentation satisfaisante pour construire 
un histogramme de la distribution des tailles des 32 étudiants, nous construisons 
un nouveau tableau plus approprié (Tableau 3.10). 

En premier lieu, on classe toutes les tailles, de la plus basse à la plus élevée. 
On place ensuite une coche en face d'une taille chaque fois que celle-ci apparaît. 
Le nombre de coches représente alors la fréquence d'apparition (occurrence) 
de chaque valeur (taille). 

L'opération ci-dessus aboutit à une distribution de fréquences des tailles 
non ETOUpPÉES. 

On relève que certaines tailles ont une fréquence nulle. Le regroupement 
des tailles est, dans cette situation, très utile. Il aboutit à des classes et à une 
distribution des tailles groupées {Tableau 3.11). 

Tout regroupement implique une sorte de réduction de l'échelle initiale en 
classes mutuellement exclusives auxquelles les observations peuvent étre af- 
fectées d'une façon unique. 

On note que, suite à cette opération, une certaine partie de l'information 
est perdue, Mais le regroupement permet une meilleure visualisation de la 
distribution de fréquences. 

Le choix du nombre de classes constitue un problème. Les statisticiens n'ont 
pas donné, à ce jour, de réponse claire et définitive à ce sujet. On admet 
cependant que, pour aider à la compréhension, le nombre de classes ne devrait 
pas excéder 20 ou 25. En règle générale, plus le nombre d'observations est élevé, 
plus le nombre de classes est grand. 

Choisissons 6 classes pour l'exemple ci-dessus. Après avoir déterminé un 
nombre de classes convenable par rapport aux données de base, on procède 
comme suit : 


Étape 1 : déterminer l'écart entre la valeur la plus élevée et La valeur la plus 
basse des tailles observées (plus généralement de la variable considérée) 
à partir du tableau des données originales. En l'occurence, nous avons: 
187 — 160 = 27. 


Étape 2 : diviser ce nombre par 6 (le nombre de classes choisi} afin d'obtenir 
la taille de chaque intervalle: à = 27/6 = 4,5, 


Étape 3 : prendre la plus basse des données originales comme valeur minimale 
de la première classe et y ajouter ? (la taille de chaque intervalle) afin 
d'obtenir la borne supérieure de cette première classe : 160+4,5 = 164,5. 


Étape 4 : continuer de la même facon jusqu'à la dernière classe : 


LG) - 164,5 
164,5 - 169 
169 - 173,5 
173,5 - 178 
178 - 182,5 


182,5 - 187 
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Étape 5 : fixer la règle relative aux bornes. Dans notre exemple, la borne de 
gauche est inclue dans la classe et celle de droite en est exclue, sauf dans 
la dernière classe qui comprend la borne de droite. 


Étape 6 : assigner chaque observation à la classe dans laquelle elle va être 
inclue, en respectant la règle des bornes. 


Le tableau 3.11 comporte les résultats relatifs à l'exemple des tailles du 
tableau 3.10 (taille des étudiants) et la figure 3.10 représente l'histogramme. 


Tableau 3.11 : Regroupement des tailles d'un échantillon d'étudiants 
Intervalles Fréq. absolues 


de classes ou effectifs 
160 — 164,5 1 
164,5 — 169 ri 
169 — 173,5 6 
173,5 — 178 6 
178 — 182,5 11 
182,5 — 187 1 

Total 32 


On remarquera que l'échelle verticale de gauche indique les fréquences ab- 
solues alors que celle dessinée à droite indique les fréquences relatives. 


13 37,5% 
10- 41,3% 
: 25% 
6 18,8% 
4 12,5% 
È 6,3% 
: OP) 
178,0 182,5 187,0 
Taille (en cm) 


Figure 3.10 : Histogramme des tailles d'un échantillon d'étudiants 


Remarque : Dans l'histogramme de la figure 4.10, les intervalles de classe ont 
des tailles toutes égales contrairement à celui de la figure 3.8. Le calcul de la den- 
sité (pourcentage par unité de la variable) ainsi que le dessin de l'histogramme 
en sont facilités et les risques d'erreurs sont moindres. Mais il convient de ne pas 
oublier que les regroupements n'étant pas toujours faits sur La base d'intervalles 
égaux, le problème du calcul de la densité peut encore se poser. 
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3.3.3 Polygones et courbes de fréquences 


Le polygone de fréquences est une autre représentation graphique. On ob- 
tient un polygone en joignant les points centraux des colonnes d'un histogramme 
par des segments de droite. En pratique, il n'est pas nécessaire de construire 
au préalable l'histogramme. On peut se référer directement au tableau des don- 
nées, placer les points à l'endroit où se trouverait le sommet des colonnes et les 
relier par des segments de droite. 

La figure 3.11 représente un polygone de fréquences basé sur des données 
fictives. 


LL 


Lorsque la largeur des classes d'une distribution de fréquences est très petite, 
le polygone de fréquences ressemble à une courbe lisse, Nous parlerons alors 
d'une courbe de fréquences. Les figures 3.13 représentent différentes formes 
que peut prendre une courbe de fréquences. 

La fréquence cumulée à un niveau donné est la somme des fréquences des 
valeurs inférieures ou égales à ce niveau. Par exemple, dans Le tableau 3.7, le 
nombre des contribuables ayant un revenu égal ou inférieur à 20 O00 Fr. est de 
13 458 (283 + 13 175). 

À partir du tableau 3.7 nous construisons une distribution de fréquences 
cumulées (Tableau 3.12 et Figure 4.12). Dans une distribution de fréquences, 
chaque valeur indique le nombre d'observations inclues dans chaque intervalle 
de classe (dans le tableau 4.7, il s’agit de contribuables). 

Dans les distributions de fréquences cumulées, chaque valeur indique le nom- 
bre de cas (ou fréquences) situés en-dessous de la limite supérieure de l'intervalle 
considéré. Par conséquent, dans la 2° classe à partir du haut du tableau 4.7, 
l'entrée (283 + 13 175) de la distribution de fréquences cumulées indique que 
13 458 contribuables au total ont un revenu égal ou inférieur à 20 000 Fr. 

On obtient donc les entrées d'une distribution de fréquences cumulées par 
addition successive des classes de la colonne des fréquences. On notera que la 
dernière valeur est toujours égale au nombre total d'observations : 60 528 dans 
notre Cas. 


D 


7 


Figure 3.11 : Polygone de fréquences 
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Tableau 4.12 : Distribution de fréquences cumulées des revenus 


Classes de Fréq. 

revenu net absolues 
{par 1 O0 Fr.) 

0 — 10 283 
10 — 20 13 175 
20 — 5Ù 40 416 
30 — 80 à (55 
80 — 120 1 029 
120 et plus 670 


La distribution de fréquences relatives cumulées (Tableau 4.12, colonne 4) 
est obtenue en divisant chaque valeur de ls colonne des fréquences cumulées 
par le nombre total d'observations. Si on les multiplie par 100, on obtient une 


Fréq. 
absolues 
cumulées 
283 
13 458 
53 7174 
58 829 
59 858 
60 528 


Fréq. Pourcen- 
relatives ages 
cumulées cumulés 
0,0047 0,47 
0,2223 22,23 
(,8884 8$.,84 
0,9719 97,19 
Ü,9889 98,89 
1,000) 100,00 


distribution des pourcentages cumulés (Tableau 3.12, colonne à). 


La représentation correspondante des fréquences cumulées est représentée 


dans la figure 3.12. 
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Figure 3.12 : Fréquences cumulées de la distribution des revenus 


dû Chapitre 3 


7 JUX 
RAS 


Ts 


Figure 4,13 : Différentes courbes de fréquences 


3.4 Historique 


L'idée de déterminer la position d'un point dans l'espace à l'aide de coordonnées 
remonte à l'époque de la Grèce antique et peut-être même avant. Mais il faudra 
attendre Le 17° siècle et Descartes pour voir les mathémati-ciens développer ce 
concept. 


Selon E. Royston (1970), le mathématicien allemand À. W. Crome fut parmi 
les premiers à utiliser des représentations graphiques en statistique (1785, 1820) 
dont 1l se servit d'abord comme outil pédagogique. Il employa différents svs- 
tèmes de représentations graphiques dont le diagramme circulaire. 


Koyston cite également W. Playfair (1786) qui se servit de diagrammes en 
bâtons et circulaires et d'histogrammes dans le cadre d'études sur la balance du 
commerce international, Cependant, le terme histogramme fut employé pour la 
première fois par K. Pearson en 1805. 
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3.5 Exercices 


1. Le tableau ci-dessous donne les principaux quotidiens romands en 1994 
selon leur tirage (en milliers, y compris les éditions satellites et les éditions 


régionales) : 
Quotidien Tirage 
24 heures 92.6 
Tribune de Genève 14,9 
Le matin 64,2 
Nouveliste 4238 


Le nouveau quotidien 36,1 


Construire Le diagramme en bâtons des tirages des quotidiens romands. 


2. Le tableau ci-dessous donne les pourcentages de surfaces boisées pour sept 
Cantons : 
Canton % de surface boisée 


Fribourg (FR) 26,3 
Crenève (GE) 13,8 
Glaris (GL) 28,4 
Grisons (GR) 25,3 
Jura (JU) 44,8 
Lucerne (LU) 30,0 
Neuchâtel (NE) 39,0 


Construire le diagramme en bâtons des pourcentages de surfaces boisées, 


3. Le tableau ci-dessous donne la répartition en Suisse des différentes religions 


pratiquées : 
Religion Fréquences relatives 
Catholique 0,461 
Protestant . 
Autres religions 0,050 
Sans religion et 
non-réponse ü,089 
Total 1 


Compléter le tableau et construire le diagamme pie-chart des religions en 
Suisse. 


4. Le tableau ci-dessous donne la répartition du nombre de quotidiens pro- 
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duits en Suisse selon la langue : 


Langue 
Allemand 
Français 


Italien 
Total 


Titres 
78 
15 


4 


97 
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Construire le diagamme pie-chart associé au tableau ci-dessus. 


5. Le tableau ci-dessous donne les précipitations annuelles en inches à l'aéro- 
port d'Honolulu entre 148 et 1997 : 


10,68 
19,76 
25,20 
31,68 
10,65 
9,97 
27,30 
37,86 


21,3 
24,22 
35,02 
14,14 
12,07 
14,26 
13,58 
37,91 


Précipitations (en inches) 


20,12 
42,78 
23,18 
34,34 
37,26 
22.54) 
15,49 
26,64 


26,94 
14,24 
24,02 
24,39 
12,90 
12,36 
25,05 
16,93 


26,90 
13,41 
+4,92 
5,03 
17,08 
17,38 
13,93 
23,94 


Construire l'histogramme des précipitations. 


16,47 43,12 
27,62 19,99 
19,84 

17,94 

19,00 

5,84 

15,59 

13,60 


6. Le tableau ci-dessous donne la répartition de la durée des retraits de permis 
de conduire selon la faute pour le canton de Neuchâtel en 1995 : 


Durée de retrait (en mois) 


(1 - 3] 

(4 - 6] 
[F-9] 

[10 - 12] 
13 et plus 


Accident 


463 


25 
Q 
Û 
] 


Ivresse Vitesse 


263 268 
116 17 

1 0 
ZT 0 
11 Ô 


Construire les histogrammes des fréquences relatives de la durée des re- 
traits de permis dans le cas des accidents, de la conduite en état d'ivresse 
et des excès de vitesse, 


7. Le tableau ci-dessous donne la répartition de la durée en minutes de 64 
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CD. Les données ont déjà été groupées : 


{a} Construire l'histogramme des fréquences relatives des durées, 
{b}) Construire l'histogramme des fréquences cumulées des durées. 


Durée 

30 — 40 
[40 — 45] 
[45 — 50] 
[50 — 55! 
[55 — 6ûl 
[60 — 65! 
[65 — 75! 


9 


Fréquence 


43 


8. Le tableau ci-dessous donne la répartition de la population française (en 


milliers) par classe d'âge et par sexe en 1998. 


Âge Hommes Femmes 


Q-4 
+5 
10-14 
15-19 
20-24 
25-29 
30-34 
30-39 
40-44 


1811 
1914 
1950 
2007 
1975 
2224 
2148 
2129 
2105 


Source : US. Bureau of the Census 


1723 
1825 
1864 
1917 
1591 
2158 
2148 
2161 
2142 


Âge 
45-49 
54 


85+ 


Hommes Femmes 


2151 
1823 
1349 
1333 
1272 


2151 
1807 
1367 
1442 
1494 
1389 
1131 
634 
885 


Construire et comparer les histogrammes (hommes et femmes) de la ré- 
partition de La population par classe d'âge. 


CARL FRIEDRICH GAUSS 


(1777 - 1855) 


Né à Brunswick, Allemagne, le 30 avril 
1777, Carl Friedrich Gauss est classé 
avec Archimède et Newton parmi les 
trois plus grands mathématiciens de tous 
les temps. 


Posant à l'envers une question 
mment insoluble, il ask la 
distribution de probabilité d'erreur qui, 
“ dans le plus simple des cas, donnera la 
règle, généralement considérée comme 
bonne, que la moyenne arithmétique de 
plusieurs valeurs de précisions égales 
d'une même quantité inconnue sera 
considérée comme la valeur la plus 
probable”. Il découvrit aussi 
l'expression c exp{-Æx?) (k = 1/ V2 
dans la notation moderne) de la loi de 
distribution plus tard appelée normale. 
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Mesures de tendance 
centrale 


Nous avons vu au chapitre précédent comment résumer un grand nombre de 
données sous la forme de tableaux ou d'histogrammes. Il est pourtant souvent 
possible de caractériser une distribution de manière beaucoup plus succinte par 
une mesure de l'emplacement” du centre et une mesure de la dispersion des 
observations autour de ce centre. 


Dans ce chapitre, nous examinerons la première des deux caractéristiques 
d'une distribution de fréquences soit la “mesure de tendance centrale". On 
peut distinguer trois types de mesure relative à la tendance centrale qui sont 
utilisés les plus fréquemment : la moyenne (moyenne arithmétique, pondérée ou 
géométrique), la médiane et le mode. 
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4.1 Moyenne arithmétique 


La moyenne arithmétique est bien connue, Elle est égale à la somme des ob- 
servations, divisée par leur nombre total. Par exemple, la movenne arithmétique 
des 5 observations suivantes: 3, -2, 1, 4. 9, est : 


1+(CD41+440 sn 


D'une façon générale, si nous disposons de n observations x1,22,...,, re 
latives à la variable X, la somme des valeurs est représentée par : 


Titi t' "+ 


et leur moyenne arithmétique par : 


tt: Fin 
“ - 


TI = 


De manière plus succincte, nous utiliserons le symbole x; pour désigner la 
ième observation et le signe Ÿ (sigma majuscule) pour indiquer une somme. 
Ainsi, l'expression : 


Fi 
rytzptast- tan Ÿlas. 
LT à | 


veut dire : “la somme des x; pour à allant de 1 à n°, La notation à = 1, sous le 
signe *., indique le premier terme de la sommation, soit #1, tandis que la valeur 
n au-dessus du même signe signifie le dernier, soit x,,. Les valeurs de l'indice : 
sont entières. 

Par conséquent, on définit la moyenne arithmétique de n observations par : 


On note que chaque observation a le même poids dans le calcul de la moyenne 
arithmétique. En effet, en réexprimant la formule générale de la moyenne arith- 
métique : 


| 
, 
| 
LL) 
ù, 
+ 
Te, 
sl. 
LR 
ce 
LA] 
+ 
+ 
A, 
a | 
Lu 
5 
5 
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on peut vérifier que le poids de chaque observation est égal à (1), donc une 
fraction du nombre d'observations. 

Quand une série d'observations comporte des valeurs répétées, on calcule 
la moyenne arithmétique en donnant un poids, égal au nombre de répétitions 
de chaque observation. Donc, si les valeurs distinctes sont 4,2%2,...,74 avec 
cormme répétition r,"z,...,"4 respectivement, la mo-yenne arithmétique s'ex- 
prime de la façon suivante : 


MiT1 TES + + Mar 
Mitna +... + ra 


E — 


qui peut étre formulée d'une façon équivalente, comme suit : 


Dr. 


=] 
OÙ n = 1 + no +... + ns est égal à la somme totale des observations. 


Exemple 4.1 Considérons le nombre de personnes par ménage dans le can- 


ton de Neuchâtel en 1980 (Tableau 4.1). 


Tableau 4.1 : Nombre de personnes par ménages 


Ti Ti id 
ménage de 1 pers. 20 734 20 734 
é HORT - 20 798 41 578 

ju 7 " 10 067 30 201 

à ” 4 de 10 381 41 524 

je | 5 # 3 054 15 265 

ü 6 . 832 4 002 
Sn = 65 865 ts = 154 294 


{nombre de ménages) (nombre de personnes) 


Source : Annuaire statistique du canton de Neuchâtel 


Dans ce tableau, nous avons: 1 = 1, re = 2, ra = à, ra = 4, xs = 5 et 
re = 6. Les x; représentent le nombre de personnes par ménage. Les fréquences 
correspondant à ces valeurs sont n1 = 20 734, na = 20 798,... Cela signifie, 
par exemple, qu'on a observé, en 1980, 20 T4 ménages comportant 1 personne, 
20 798 en comprenant 2, etc... Nous calculons le nombre moyen de personnes 
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par ménage de La façon suivante : 


6 
ÿ Ti 


Titi ++ NT _ iæl 


Du Dm 


1] i=1 


i=]l 


Il y avait donc, en moyenne, 2,34 personnes (valeur arrondie à deux décima- 
les) par ménage dans le canton de Neuchâtel en 1880. 

Il faut interpréter ce résultat avec attention car en fait, il n'existe pas bien sûr 
de ménage comprenant 2,34 personnes. Toutefois, nous pouvons dire que pour 
100 ménages, il y avait en moyenne 234 personnes dans le canton de Neuchâtel : 
ou encore que dans le canton de Neuchâtel un ménage comprenait en moyenne 
plus de 2 personnes, mais moins de trois personnes. 


4.2 Moyenne d’une distribution de fréquences 


Quand les données sont présentées sous forme d'une distribution de fréquences, 
la moyenne arithmétique s'exprime en fonction des fréquences relatives : 


al + Pots +: + ata 
TE 


(Æ) #1 + (Æ)a2+ + (€) 0 


fit: + forte + + fard 
d 

S 

is] 


où fi, fs... Ja représentent les fréquences relatives de la distribution et 


fhtfit.-+fa=L 


Exemple 4.2 La distribution de fréquences du nombre de lettres par mot 
dans la langue française, telle qu'obtenue à partir d'un échantillon de 10 pages 
choisies aléatoirement dans le Petit Robert, Edition 1973, est présentée ci- 
dessous. 


Mesures de tendance centrale 49 


Tableau 4.2 : Distribution de fréquences du nombre de lettres par mot 


Nombre de Fréquences Nombre de Fréquences 
lettres par mot relatives | lettres par mot relatives 


4 7/228 11 17/228 
5 12/228 12 15/228 
6 31/228 13 9/228 
7 37/228 14 0/228 
8 29 /228 15 6/228 
9 35/228 16 1/228 
10 29 /228 Total 1 


En se basant sur les résultats de ce tableau, on calcule la moyenne arithmé- 
tique de la longueur des mots français comme suit : 


= 1 12 1 
Bat tot +555 16 = 8,60. 


Ceci indique qu'en moyenne, il y a à peu près 9 lettres par mot dans la 
langue française {similairement, on pourrait calculer, pour la langue anglaise, 
la moyenne du nombre de lettres par mot et comparer par la suite les résultats 
obtenus). 


4.3 Moyenne à partir de données groupées 


Souvent les observations statistiques sont groupées et présentées par tranche 
de valeurs. Ceci est fréquemment le cas pour des variables continues comme 
il a été indiqué dans le chapitre précédent. Un exemple est La distribution de 
fréquences des revenus annuels des ménages en Suisse, en 1976, présentée dans 
le tableau 4.3 : 


Tableau 4.3 : Distribution de fréquences des revenus 
Nombre de Revenu moyen 


Revenu annuel ménages par ménage 
24 000 — 36 000 41 31 953 
36 000 — 48 ON 151 42 596 
48 000 — 60 000 153 53 916 
60 G00 — 72 000 82 65 562 
12 (KX) — 84 000 39 TS 064 
84 000 — 96 000 29 89 573 
96 000 —108 000 q 101 018 


Total 504 
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La moyenne arithmétique des données groupées peut se calculer avec exac- 
titude seulement si la moyenne des observations de chaque groupe est connue. 
Dans ce cas, le calcul de la moyenne arithmétique est en principe le même que 
pour celui des valeurs répétées. Ainsi, le groupement des observations donne 
d groupes comprenant, pour chacun d'entre eux, d'une part, un total d'ob- 
servations égal à #1,n92,...,n4 et, d'autre part, une moyenne équivalente à 
M,mMo,....ma. Bien que nous ne disposions pas d'observations individuelles, 
il est possible de calculer la moyenne arithméti-que de l'ensemble des observa- 
tions, en notant que la somme des observations peut être reconstituée à partir 
des movennes des groupes. Ainsi : 


d 
+ Li = M + Noa +: + natrhg. 


sal 


Par conséquent, on peut en déduire que : 


d 
>" 
__ lil 


I 


TL 
Fat + Moig + 2: + ad 


" 
Exemple 4.3 Ce calcul est effectué pour le tableau 4.3 concernant les 
revenus des ménages en Suisse, On obtient : 
41 - 31 953 + 151 - 42 596 + : -- + 9 - 101 O18 


oÛ4 
27 918 576 


504 


55 3934. 


Ainsi, le revenu moyen par ménage en Suisse s'élevait en 1976 à 55 394 francs. 

Ce calcul exact de la moyenne arithmétique à partir des observations groupées 
ne peut se faire que si les moyennes des groupes sont connues. Sinon, seule une 
approximation de la moyenne arithmétique est possible. 

Pour parvenir à cette approximation, on supposera que les observations ap- 
partenant à un groupe particulier sont uniformément (ou au moins symétrique- 
ment) distribuées à l'intérieur de ce groupe. Cela permet d'attribuer, dans le 
calcul de la moyenne, la valeur centrale du groupe considéré 4 chacune des 
observations qui y est associée. 

Ainsi, si nous exprimons le point central du ième groupe par rñn, et que la 
distribution comporte d groupes, la moyenne arithmétique sera approximative- 


rent : 
el 
; Ti TT 
My + Nota + 7 + naïig i=i 


y + a+: + rl 


I = 
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En se reportant au tableau du revenu des ménages en Suisse, ce calcul don- 
neralt : 


E — 
914 


= 99 14. 


Ce résultat approximatif calculé à partir des données groupées, sans faire 
référence aux moyennes des groupes, apparait légèrement inférieur à celui de 
la movenne arithmétique ? = 55 494 qui représente une mesure exacte, La 
perte d'information due au groupement entraîne donc une sous-estimation par 
rapport à la véritable moyenne de l'ordre de 0,4%. 


4.4 Propriétés de la moyenne arithmétique 


La movenne arithmétique est la mesure de tendance centrale des variables quan- 
titatives la plus utilisée, [Il convient de souligner ses caractéristiques et pro- 
priètés : 


1. Dans le calcul de la moyenne arithmétique, chaque observation a le même 
poids. Une observation ayant une valeur nettement supérieure où nette. 
ment inférieure à l’ensemble des observations a donc une influence aussi 
inportante que les autres sur la moyenne elle-même. 


2. La movenne est surtout utile pour décrire et exprimer la tendance centrale 
de variables exprimées selon des échelles d'intervalles ou de rapports. 


3. La somme algébrique des écarts à une movenne est égale à zéro ; par 
exemple, si z1 = 1,23 = 2, ra = 4, leur moyenne est : 


1+2+3 
———_—— = À 
3 


Qin constate alors : 
(1-2)+{42-2)+4+(3-2)=-1+0+1= 0. 


Le résultat se vérifie en général pour un nombre n quelconque d'obser- 


vations : < 
(2 — x) =0. 


=] 


4. La somme des carrés des distances de toutes les observations À la moyenne 
est plus faible que la somme des carrés des distances à toute autre valeur. 
Pour illustrer cette dernière propriété, on pourra se référer au tableau 4.4. 
Celui-ci montre les carrés calculés, d'une part à partir de la moyenne et 
d'autre part, à partir de quelques autres valeurs d'une distribution. 
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On remarquera que la plus petite somme des carrés se trouve en colonne 
3 lorsque les écarts sont calculés à partir de la movenne. 


Tableau 4.4 : Sommes des carrés des écarts 


Ti {ri 2} (ri) (x: -4} 

2 Û 1 4 

d l Ô 1 

à Ë 0 1 Ü 
Total 5] 2 5 


Cette propriété permet une définition précise de la moyenne : la moyenne 
est la mesure de tendance centrale qui minimise la somme des carrés 
des écarts à elle-même, Autrement dit, on a pour tout a : 


De) < x - a}? 


i=]l i=] 


La méthode de détermination de la moyenne par la recherche de la plus 
petite somme des carrés des écarts est appelée méthode des moindres 
carrés. Nous la retrouverons et en discuterons plus loin dans cet ouvrage. 


50% 


25% 


0% 
3 


Figure 4.1 : Histogramme de données fictives 


. La moyenne comme centre de gravité. Considérons les données fictives 


suivantes : 21 = 4, ro = 9, Ta = 9, Za = 6, et construisons l'histogramme 
correspondant (Figure 4.1). Cet histogramme est symétrique par rapport 
à la valeur 5. Imaginons que nous tracions une ligne verticale au milieu 
du bloc central et que nous plions la partie gauche sur la partie droite, 
On constaterait alors la symétrie de la figure. La moyenne arithmétique 
de ces données est 5. 

Qu'arriverait-il si, au lieu de 4, 5, 5, 6, nous avions les données suivantes : 
4, 5, 5, 10 7 Comme le montre la figure 4.2, le bloc de droite se déplace plus 
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à droite, détruisant la symétrie de l'histogramme et la moyenne (indiquée 
par une flèche} se déplace vers la droite, à un point ne correspondant à 
aucune observation. 

Imaginons maintenant l'axe de l'histogramme comme une planche sur 
laquelle on aurait placé des poids de 1 kg. pour chaque unité relative aux 
observations. Si nous placçons sous cette planche une pomme, au niveau 
de La moyenne, elle va étre en équilibre, comme dans la figure 42 (cf, la 
flèche dessinée). Dans ce sens, la moyenne peut être qualifiée de centre 
de gravité d'une distribution. 


So 
3 4 5 ëô 7 


q 


rip 
. mél | Le 
d 4 5 | u & CE) 


Fa 16 Lu 


Figure 4.2 : Histogrammes de deux séries de données fictives 


4.5 Moyenne pondérée 


Le tableau 4.5 regroupe les données relatives à 5 classes d'étudiants fictifs ayant 
subi un examen d'anglais. 


Tableau 4.5 : Moyennes et nombre d'élèves par classe 
N° de Moyennes Nombre d'élèves 
la classe obtenues n; par classe 


1 4,9 30 
2 5,2 20 
3 4,7 25 
4 5,0 35 
pr 3,9 40 
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La somme des 5 movennes et la division de cette somme par le nombre de 
classes (5) ne donne la moyenne exacte de l'ensemble des élèves que si le nombre 
d'élèves est le méme dans chaque chasse. Or, tel n'est pas le cas dans cet exemple. 

Il convient donc de pondérer chaque moyenne par le nombre d'élèves de la 
classe, Pour ce faire, et pour obtenir la somme des valeurs, on multiplie chaque 
moyenne par le nombre d'élèves n; correspondant. Qn obtient ainsi : 


D_nit) = 30(4,5) + 20(5, 2) + 25(4, 7) + 35(5,0) + 40(5,9) 


135 + 104 + 117.6 + 175 + 236 
= J07,5. 


La moyenne pondérée, symbolisée par %,, est définie par la somme des 
moyennes de chaque groupe multipliées par leur nombre respectif d'observa- 
tions et divisée par le nombre total d'observations. Dans notre cas : 


Sim =n-—150 (voir tableau 45). 


L'où : 
5 
dE 167,5 
_— = … 1 = 
= EE = = 5,12 


Îl faut savoir que la pondération ne se fait pas toujours par rapport au 
nombre d'observations par groupe, mais plus généralement par rapport 4 un 
“poids”, dénoté w;, attribué à chacun des groupes. $i l'on a d groupes, la 
formule s'écrit ainsi : 

d 
Ÿ ut, 
i—] 


— 
2, wi 


Lp — 


Le cas des moyennes pondérées diffère de celui des movennes pour des don- 
nées groupées comme examiné plus haut. Dans le cas de données groupées, 
on utilise une valeur arbitraire {le point central de la classe) en faisant l'hy- 
pothèse d'une distribution homogène à l'intérieur des classes. Dans le cas d'une 
moyenne pondérée, cette hypothèse préalable n'est pas nécessaire : la moyenne 
de la classe multipliée par le nombre d'élèves donne bien la somme totale du 
numérateur dans la formule utilisée pour le calcul de la moyenne. Ainsi : 


4,5-30 = 135 
135/30 4,5. 
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Exemple 4.4 Dans une entreprise, on utilise les 6 critères suivants pour 
apprécier le personnel et pour évaluer les décisions à prendre concernant les 
promotions, les mutations, l'évolution du salaire, les mesures de formation, etc : 


. les capacités professionnelles : 
. Le rendement (quantitatif) : 

. la qualité du travail : 

. l'ardeur à la tâche : 

. l'initiative : 

. l'esprit de collaboration. 


Er OT de ES 19 


Chacun de ces critères est noté sur une échelle allant de 1 à 5 et un score 
global est calculé. Souvent, les critères sont pondérés, ce qui signifie qu'ils sont 
plus ou moins valorisés. Voici un exemple de pondération : 


critère 1 2 3 4 Er] G 
poids 25 20 20 10 15 10 


Une personne a obtenu, lors de son évaluation, les notes suivantes (sur une 
échelle de 1 à 5] : 
243414 


Compte tenu de la pondération, son score global sera : 
(25 - 2) + (20 : 4) + (20 - 3) + (10 : 4) + (15: 1) + (10 : 4) = 285. 


On peut bien sûr se contenter d'un tel résultat global. Mais il est plus simple 
de calculer une moyenne pondérée qui donne une valeur plus significative à 
l'intérieur de la fourchette originale allant de 1 à 5. 

On procédera donc de la façon suivante : 


(25 - 2) + (20 - 4) + (20 - 3) + (10 : 4) + (15 - 1) + (10 : 4) 
29 + 20 + 20 + 10 + 15 + 10 
285 
um w “ 
100 ds 
Si les poids des différents critères n'étaient pas pris en compte, la movenne 
non pondérée aurait été de : 
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La pondération a pour effet de diminuer l'influence des observations extré- 
mes. 


4.6 Autres moyennes 


Il existe d'autres types de moyennes que la movenne arithmétique. On présen- 
tera ici La moyenne harmonique, la moyenne géométrique et la moyenne quadra- 
tique. Même si ces moyennes sont moins souvent connues que la moyenne arith- 
métique, elles sont utilisées dans certains cas. Ainsi, par exemple, la moyenne 
harmonique et La moyenne géométrique sont utilisées lors du calcul des indices 
économiques. 


4.6.1 Moyenne géométrique 


On définit la moyenne géométrique @& de la façon suivante : 


G= YA 2 Em 


ou, en d'autres termes : 


1 l 
log & = — (log zi + logzrs---+logxr,} = ps ÿ log ri. 


iæ] 
Exemple 4.5 Pour les observations: 3, 4, 7,9, 11,13, 17, 19, la moyenne géo- 


métrique est : 


G = pt En 


= Y5-4.7-0-II-19-17-19 
= 8, 768. 


Comme pour la moyenne arithmétique, on peut calculer une moyenne géo- 
métrique pondérée, définie par : 


Mill FE rh 
Go {ri -Ææot: #i 


où Li, …, ra sont les valeurs répetées mu,n2,..,n4 fois respectivement. On 
peut aussi écrire : 
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4.6.2 Moyenne harmonique 
On définit la moyenne harmonique Æ de la façon suivante : 


LL Fi 
Ha ————_——_————…—…— — 
FrEt FE 


Exemple 4.6 Si l'on reprend les observations de l'exemple 4.5 : 4,4,7,9, 11, 
13,17,19, la moyenne harmonique est : 
Ti 
H — = — 
Da stat 
ml 


Comme dans le cas précédent, on peut calculer une moyenne harmonique 
pondérée, définie comme : 


où T1,22,.…, +4 sont les valeurs répetées n1,n3,...,n14 fois respectivement, 


4.6.3 Moyenne quadratique 
On définit la moyenne quadratique @ de la façon suivante : 


1 
Q= 1 at+a+.+at)= 


Exemple 4.7 Si l'on reprend les observations de l'exemple 4.5 : 3,4,7,0, 11, 
13,17,19, la moyenne quadratique est : 


Remarque : la moyenne quadratique n'est qu'un cas particulier de moyenne 
d'ordre a, M,, qu'on définit de la manière suivante : 


1 
E — 2 
M, : ÿ TT, 


is] 
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4.6.4 Généralisation de la notion de moyenne 


Les différentes moyennes présentées jusqu'ici sont reliées entre elles car leur 
calcul part d'un même principe. 
Soit f(x) une fonction toujours croissante ou décroissante de la variable 
statistique x. 
Le nombre M tel que : 
1 l 
FM) = = {ra fl) + naf(sa) +. + naf(ra)] = = Ÿ  nif(xi) 
Miel 
correspond à la définition générale de la moyenne. 
On peut ainsi retrouver les différentes moyennes présentées dans ce chapitre : 


e si f(x) = x, on retrouve la moyenne arithmétique : 


I = — il; 
nm 
1=1 
« si fix} = logx, on retrouve la movenne géométrique : 
1 4 
log & = : x, in; log r;) 
3 
. 
L _ I ñ; 
H n * Ti 
ou 
"ll 
ie 
2e 


e si f(x) = x, on retrouve la moyenne quadratique : 
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4,6.5 Comparaison des différente types de moyennes 


Les movennes arithmétique et quadratique attribuent beaucoup d'influence aux 
éléments les plus élevés des séries (la moyenne quadratique plus que la moyenne 
arithmétique). En revanche, les moyennes géométrique et harmonique réduisent 
l'influence des observations les plus grandes et augmentent celle des plus petites 
(la moyenne géométrique moins que la movenne harmonique). 

De plus, on peut classer les moyennes arithmétique Æ, géométrique 6, har- 
monique À et quadratique @ de la manière suivante : 


H<G<r<Q. 


Exemple 4.8 Si l'on reprend les observations de l'exemple 4.5 : 3, 4, 7, 9, 
11, 15, 17, 19, on a : 


CG = 8,768 
H = 7,165 
Q = 11,699 
€ = 10,375 
d'où : 
7,165 < 8,768 < 10,375 < 11,69 
4.7 Médiane 


La médiane (symbolisée par med) est le point qui partage la distribution d’une 
série d'observations en deux parties égales. La médiane ne s'applique que lorsque 
les observations peuvent être ordonnées de la plus petite à la plus grande. Elle 
concerne donc Les variables qui peuvent être mesurées sur une échelle qui est au 
moins ordinale, et ne s'applique pas aux variables qualitatives mesurées sur une 
échelle nominale. 

En se référant à un histogramme, la médiane est la valeur pour laquelle on 
trouvera de part et d'autre la moitié de la surface représentée. “ bob 

Pour trouver la médiane d'une série de données, il est utile de classer ces 
dernières dans un ordre croissant (la plus basse, la seconde moins élevée, … ke 
On obtient ainsi une série ordonnée. 

Si le nombre d'observations est impair, la médiane est l'observation située au 
milieu de la série, Il s’agit en fait de La ((n +1)}/2)° observation d'un échantillon 
ordonné. 

Exemple 4.9 Considérons les cinq observations suivantes : 2,6 : 4,1 : 4,9 ; 
0,3 : 2,2. La médiane est la 34° observation — 4, 19. 


Si le nombre d'observations est pair, la médiane peut être n'impôrté quelle 
valeur située entre la (#)° observation et la (2#£}" observation. Pour simplifier, 
on peut convenir de choisir la moyenne de ces deux valeurs cômmé valeur de la 
médiane. 
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Exemple 4.10 Considérons les quatre observations suivantes : 2,6 : 3,1 : 
4,9 : 5,4. La médiane est située entre la 2 et la 4° observation. On peut donc 
choisir ste = 4 comme valeur de la médiane. 


Si les observations sont groupées par classes, il convient de procéder à un 
calcul dont nous allons donner un exemple ci-dessous. 

Exemple 4.11 Considérons les données du tableau 4.6. Les 90 observations 
sont ordonnées et on remarque que la médiane doit se trouver dans l'intervalle 
41-45 où se trouve le 45°-46° individu (obtenu en additionnant simplement les 
fréquences). 


Tableau 4.6 : Distribution des notes de 90 apprentis 
Scores Effectifs ou Fréquences 


No. intervalles Fréquences relatives 
de classe de classe absolues 
l 16 — 20 2 0,022 
2 21 — 25 5 0,055 
3 26 — 40 8 0,059 
d 31 — 35 17 0,189 
5 36 — 40 li 0,122 
ë 41 — 45 26 0,289 
F 46 — 50 15 0,167 
8 91 — 55 5 0,056 
9 56 — 60 1 0,011 


Dn=90 %=1,000 


On peut calculer une valeur précise pour la médiane si l’on suppose que les 
individus de la classe considérée sont également répartis à l'intérieur de celle-ci. 
Cette valeur est donnée par : 


n/2- 5 mnt) , 


med = L+ DE ET 
L = limite inférieure de la classe médiane 
ri = nombre total d'observations 
5 inf) —= somme des fréquences absolues des classes 
se situant avant la classe médiane 
nyfmed) = fréquence de la classe médiane 


ë —  Jargeur de la classe médiane. 


Mesures de tendance centrale 61 


Si l'on applique cette formule dans notre cas, on obtient : 


Med — a 5e Us). 
26 
(45 — 43) 
= 40.5 + DT -5 
2 10 
= 10,54 (25.5) = 40,5+ 32 
— 4{,845. 


Ce calcul mérite une explication. Comme limite inférieure de l'intervalle 
contenant La médiane nous avons noté 40,5 et non 41. 

En fait, on peut considérer que les scores mesurant une aptitude sont en fait 
continus, même s'ils sont exprimés sous une forme discrète, Mais tout se passe 
comme si on arrondissait. Dès lors, et en fonction de la façon dont on arrondit 
habituellement, obtenir un score de 41, c'est en fait obtenir une quelconque 
valeur située entre 40.5 et 41,5. 

Notons encore que 40,885 (soit environ 41) est le score théorique qui, compte 
tenu des hypothèses sous-jacentes exprimées plus haut, partage la distribution 
en deux. 

La médiane est souvent utilisée pour exprimer des données démographi- 
ques. Elle semble particulièrement utile pour décrire la tendance centrale des 
échelles ordinales et des distributions particulièrement étalées, pour lesquelles 
la moyenne pondère exagérément les valeurs extrémes. 


Exemple 4.12 Lors d'une enquëte faite auprès des employés et des cadres 
d'une grande organisation, nous avons recueilli diverses données personnelles et 
avons posé notamment la question suivante : 

Quel niveau de formation avez-vous atteint ? 


Nombre ri 
1 scolarité obligatoire 87 5,1 
2 apprentissage complet 259 15.2 
3 formation technique 495 28,9 
4 formation technique supérieure 409 23,9 
5 université, grandes écoles 459 26,9 


Total = 1709 100,0 


Si l’on ordonne les données, comme ci-dessus, en attribuant 1 pour le niveau 
de formation le plus bas, 2 pour le suivant et ainsi de suite, on constate que 
la médiane doit se trouver à la marge de la classe 3 et 4 L'application de la 
formule donnée plus haut nous permet d'obtenir : 


n/2-Eniinf) 


med = L+ ET 
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1 709/2 — 841 


3,5 + 109 


3,03. 


| 


La médiane correspond donc à un niveau situé entre “formation technique” 
et “formation technique supérieure”. 


Exemple 4.13 Reprenons les données du tableau 4.1 relatif au nombre de 
personnes par ménage dans le canton de Neuchâtel en 1980. Nous avions calculé 
une moyenne de 2,34. Qu'en est-il de la médiane ? 

Regardons d'abord la forme de la distribution (Figure 4.3). La distribution 
n'est pas régulière maïs plutôt étirée vers la droite. 


Figure 4.3 : Nombre de personnes par ménage dans le canton de Neuchâtel en 
1980 (Tableau 4.1) 


En appliquant la formule de la médiane, nous obtenons : 


65 865/2 — 20 734 
20 798 


1,5 + 1 
= 1,5 + 059 


= 2,09. 


red 


Comparée à la moyenne, la médiane est nettement plus “conservatrice”. Elle 
donne une vue plus “réaliste” du “ménage type”, car la moyenne est fortement 
influencée par les observations extrêmes. Si l'on supprimait les ménages de 5 et 
6 personnes, elle ne serait que de 2,16. 

Terminons cette section en signalant une propriété de la médiane : la mé- 
diane est le point de la distribution qui minimise la somme des distances absolues 
(c'est-à-dire sans tenir compte du signe) de tous les scores à ce paint. (Nous 
rappelons que la moyenne est le point qui minimise la somme des carrés des 
écarts à elle-même). 
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4.8 Mode 


Quand il s'agit d'une variable qualitative, ni la movenne arithmétique, ni la 
moyenne pondérée, ni la médiane ne s'appliquent. Il faut utiliser une autre 
mesure de tendance centrale, à savoir le mode. 

Le mode {symbolisé par mod} d’une variable qualitative (ou quantitative 
discrète) est la valeur qui possède la fréquence la plus élevée. 

Felevons d'emblée que : 


le mode n'est pas toujours une valeur centrale de la distribution. [l peut 
se situer à gauche ou à droite du centre ; 


une distribution peut avoir 1, ? ou plusieurs modes. Elle sera appelée 
dans le premier cas unimodale, dans le deuxième bimodale et dans le 
troisième plurimodale : 


le mode n'existe pas si chacune des valeurs d'une série d'observations n'ap- 
paraît qu'une seule fois, ou 2,4...n fois. On peut même se trouver dans 
une situation où toutes les valeurs constituent le mode ;: 


le mode ne décrit donc pas toujours la distribution avec précision. Il 
est d'ailleurs très instable quand le nombre d'observations est faible : il 
est également sensible à la taille et au nombre d’intervalles choisis pour. 
regrouper les données d'origine : 


« le mode n'est valable, pour étre un bon indicateur du centre de la distri- 
bution des données, que lorsqu'une seule fréquence domine ; 


« le mode est surtout utile pour décrire la tendance centrale de variables 
nominales (chapitre 2). Les exemples ci-après illustrent et approfondissent 
les principales remarques ci-dessus. 


Exemple 4.14 Si nous avons un échantillon de 5 observations ayant les 
valeurs : 1,2,4,—1,6, on peut dire soit qu'il n'y a pas de mode puisque chacune 
des valeurs n'apparaît qu'une seule fois, soit qu'il y en à 5. 


Exemple 4.15 Dans le tableau 4.7 de la distribution de l'âge de la popula- 
tion résidant en Suisse en 1980, le mode est La tranche d'âge quinquennale 15-19 
ans, correspondant à la fréquence maximale 511 708. 

On remarquera que le tableau 4.7 est construit sur la base d'un groupement 
des données par classes dont la taille de l'intervalle est de 5. Compte tenu de 
l'importance des classes voisines, un autre groupement aurait peut-être déplacé 
le mode. En fait, si l'on considère les données ventilées pour chaque année d'âge, 
on constate que le mode est 16 ans, ce qui correspond à la fréquence 104 922 
(cf. La Vie Economique, Zurich, septembre 1982). 
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Tableau 4.7 : Recensement fédéral suisse de la population en 1980 


Fopulation résidéente 


Classe d'âge Total Horeme Femme 
Total GE 465 960 3 1141 #12 3 251 148 
Û an GT 42] 44 475 +2 942 
1- 4 nus 284 449 145 588 L6 BEL 
5e 9 ans 04 544 202 614 191 974 
10-14 ans 475 110 242 141 2932 121 
15-19 aux 511 708 281 984 245 724 
2-74 ans 453 464 3245 #11 237 652 
25-29 ans 476 041 240 #40 235 241 
4l-44 ans AU Mi 251 44 dat 091 
35-39 ans 483 CAO AT 730 235 219 
40-44 ans 410 354 207 450 203 903 
45-49 ana 391 441 196 Q65 105 68 
H-54 ans 366 6 177 442 144 Gad 
dd) AE 46 118 1564 4535 181 764 
EO0-Ë4 ans 283 941 153 799 150 142 
65-69 ans 278 414 124 472 153 142 
T0-T4 ana 246 879 103 763 145 118 
75-79 aus 184 307 T0 315 113 891 
80-84 ans 10E 810 d0 553 Ta 297 
45-89 ans 46 50 La 206 42 294 
d0-94 ane 13 859 3 564 ÿ 271 


95 ans et plus 2 14 534 1 710 
Source : La Vie Economique, sept. 1982 


Il se peut même que le mode, calculé à partir des données regroupées, se 
trouve en dehors du groupe modal lorsque le calcul est fait à partir de données 
individuelles. 

Si l'on examine attentivement le tableau 4.7, on constate en fait qu'il y a 
deux modes relativement rapprochés : 


— le mode absolu dont nous venons de parler correspondant à la classe 
15-15 ans qui inclut 511 708 personnes : 


— un second mode relatif correspondant à la classe 30-34 ans qui 
comprend 508 943 personnes. 


Ceci se voit plus aisément à partir de la représentation graphique des données 
du tableau 47 (Figure 4,4). 

Il y a deux pointes dans la distribution de La population totale résidante, 

Compte tenu de ce que nous savons de l'évolution des naissances, ces deux 
pointes (modes) correspondent à deux périodes de forte natalité, la première en 
1945/5350 et la seconde en 1960/65. 
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Figure 4.4 : Représentation graphique des données du tableau 4.7 


Exemple 4.16 Considérons la distribution représentée dans le tableau 4.6. 
Il s'agit des scores (nombre de réponses justes) obtenus par 90 apprentis d'une 
école professionnelle à plein temps au test B.,53, une mesure du niveau général 
d’aptitudes. 

L'examen du tableau 4.6 nous montre : 


— un mode absolu pour l'intervalle de classe 41 - 45 (bonnes réponses) 
avec 26 personnes ; 

- un deuxième mode pour l'intervalle de classe 41 - 35 avec 17 person- 
ES. 


La figure 4.5 donne une représentation graphique de ces données (polygone 
de fréquences). 

Cette distribution bimodale peut mieux se comprendre à la lumière de cer- 
taines théories et connaissances relatives à la psychologie et à l'orientation sco- 
laire. 


Miche sic 
kr” 
Mc 
D. 
a 
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(+8 - 20) :56- 60) 


Figure 4.5 : Polygone de fréquences {Tableau 4.6) 
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Dans le canton de Neuchâtel où les mesures ci-dessus ont été effectuées, les 
élèves qui entrent en apprentissage à l’école professionnelle peuvent provenir de 
plusieurs sections de l’école secondaire (en 83/84) : 


— les sections scientifiques et classiques (ces élèves continuent en général 
des études longues) : 


— la section moderne (M} ; 


— ]a section pré-professionnelle (PP \. 


Ces deux dernières sections fournissent l'essentiel des élèves considérés, la 
dernière regroupant en général les élèves ayant enregistré le plus de difficultés 
scolaires. En moyenne, les élèves de la section PP. sont un peu plus faibles 
(au niveau académique) que ceux de la section M. Le test B.53 mesurant le 
niveau général reflète certainement ces différences de niveau entre sections. En 
fait, si l'on séparait les élèves, nous aurions deux courbes, l'une correspondant 
à l'échantillon issu de la section PF et l’autre à l'échantillon provenant de la 
section M (Figure 4.6), 

La présence de plusieurs modes dans une distribution incite à s'interroger 
sur la composition de l'échantillon étudié, comme le montre notre exemple. 


1 È El 4 5 & 7 & Êl 


Figure 4.6 : Juxtaposition de deux polygones {Tableau 4.6) 


4.9 Comparaison entre la moyenne, le mode et 
la médiane 


Nous pouvons maintenant faire quelques comparaisons sommaires entre les trois 
principaux indicateurs de tendance centrale qui ont déjà été examinés. 
{a} Que reflètent les indicateurs ? 


- la moyenne prend en compte la valeur de chaque score d'une 
distribution ; 
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- le mode indique une seule valeur de la distribution, celle qui a la 
fréquence la plus élevée : 


- la médiane indique un rang. 


{b}) Chacun de ces indicateurs est sensible à certains aspects de la distri- 
bution. Dès lors, leurs valeurs sont souvent différentes. 


Prenons quelques exemples : 


- La movenne, le mode et la médiane sont confondus si La distri- 
bution (courbe de fréquences) est unimodale et symétrique. 
Voir, par exemple, la figure 4.1. Le lecteur pourra aisément véri- 
üer cette affirmation à l'aide des données fictives avant servi à La 
construction de l'histogramme de cette figure. 


Si la distribution est bimodale et symétrique, alors, la moyenne 
et la médiane sont confondues. Mais il y a deux modes comme 
le montre la figure 4,7. 


Si la distribution est asymétrique, le mode, la médiane et la 
movenne peuvent avoir des valeurs différentes, comme le montre 
la figure 4.8. 


Figure 4.7 : Distribution bimodale symétrique : moyenne {moy}, médiane 
{med}, modes (mod) 
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Figure 4.8 : Distribution asymétrique étirée à droite 


Dans une distribution de ce type, (étirée à droite] on trouve, en général, de 
gauche à droite, le mode, la mediane et la moyenne, dans cet ordre. 

Si la distribution est asymétrique dans l'autre sens, à savoir les plus basses 
fréquences sont à gauche et les plus élevées à droite, on obtient l'ordre inverse 
soit : #, med et mod 


4.10 Historique 


Parmi les mesures de tendance centrale, la moyenne arithmétique est sans doute 
la plus célèbre. Elle est l'une des plus anciennes méthodes employées pour 
combiner des observations afin d'obtenir une valeur représentative unique. Son 
utilisation semble en effet remonter au temps des astronomes Babyloniens du 4° 
siècle avant J. C. La science de l'astronomie utilisa la moyenne arithmétique pour 
déterminer la position du soleil, de la lune et des planètes. Selon KR. L. Plackett 
(1958), c'est avec l’astronome grec Hipparchus que la moyenne arithmétique se 
généralise. 

La notion de pondération apparaît avec le principe d'espérance mathématique 
(moyenne pondérée des valeurs qu'une variable aléatoire peut prendre) en 1657. 
Le scientifique Hollandais C. Huygens publie alors un ouvrage intitulé “De Ka- 
hiocinis In Alea Ludo” dans lequel il se penche sur l'espérance mathématique. 
Ce livre influa largement les travaux de Pascal et Fermat relatifs aux probabil- 
ités. 

L'introduction de la moyenne arithmétique pondérée en tant que telle, est 
due à R. Cotes en 1712. Et les prémices de la médiane viennent en 1748 suite aux 
propositions similaires d'Euler et Mayer sur le moyen de diviser les observations 
d'un ensemble de données, en deux parties égales. La véritable méthode de la 
médiane sera présentée par Boscovich en 1757. 
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4.11 Exercices 
1. Soit un échantillon #, , à = 1,..,n. 


(a) En posant y; = ax; + b,i= 1,..,n vérifier algébriquement que quels 
que soient a et b, 
ÿ = ax + 0. 

(b} À partir des données numériques suivantes : 


Ti : Ô 12 21 Q 6 9 15 J 
Calculer YŸ_, x; et ensuite la moyenne %. 


(c) Utilisant le résultat (a), calculer, d'une façon simple, la moyenne des 


y: suivants en sachant que a = 1 et b = 19U). 
wi: 1906 1912 1921 1900 1906 1909 1915 1903 


2. Soit un ensemble de 5 valeurs : 
2 4 —1 ri 23 
(a) Calculer la moyenne arithmétique de cet ensemble. 


(b) Sans considération d'ordre, énumérer chacun des dix sous-ensembles 


de taille trois : (2, 4, —1}, (2, 4, 7), --- 
{c) Pour chaque sous-ensemble, calculer la moyenne arithmétique. 
(d) Calculer ensuite la moyenne de ces moyennes. 


(e) Vérifier que La moyenne des sous-ensembles (obtenue en (d)) est égale 
à la moyenne de l'ensemble initial (calculée en {a))}. 


3. Le tableau ci-dessous donne le nombre d'exploitations agricoles par surface 
productive du canton de Neuchâtel : 


Surface productive Fréquences 


(en ha) absolues 
NM-5! 206 
[5 - 10 | gs 
[10 - 20! 417 
[20 - 50 [ T35 


SÙ et plus 115 


{a) Construire l'histogramme des fréquences relatives. 


{b) Calculer la surface productive moyenne. 


4. Le tableau ci-dessous présente le chiffre d'affaire total hors taxes (en Mds 
FF) en 1996 par secteur ainsi que le nombre d'entreprises (en milliers) 
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soumises au régime d'imposition BIC (Bénéfice Industriel et Commercial) 
dans chacun de ces secteurs : 


Secteur Entreprises (Ch.A HT 
Industrie agro-alimentaire 67 869 
Biens de consommation 66 769 
Biens d'équipement 40 $41 
Biens intermédiaires 63 1461 
Construction 292 744 
Commerce 554 4912 
Transports 38 603 
Activités financières 26 2509 
Activités immobilières 216 358 
Services aux entreprises 179 1409 
Services aux particuliers 301 465 
Source : INSEE 


Calculer le chiffre d'affaire moyen par entreprise. 


5. Le district de Neuchâtel se compose de 10 communes. On connaît : 


« le nombre d'habitants par commune ; 
« le nombre de véhicules par habitant, 


Localité Habitants Vhc/hab 
Cornaux 1 570 0.4694 
Cressier 1 701 0,4556 
Enges 280 0,5250 
Hauterive 2 357 0.502 
Le Landeron 4 031 0,4646 
Lignières 713 0,6437 
Marin 3 710 0,4396 
Neuchâtel 41 800 (0.4405 
St-Blaise 2 961 0,5369 
Thielle- Wavre 462 0,5940 


Déterminer le nombre moyen de véhicules par habitants, de quelle 
movenne s'agit-il ? 


6. Calculer la moyenne arithmétique, géométrique, harmonique et quadra- 
tique de l'échantillon ci-dessous : 
7 15 6 8 11 
Comparer ces résultats. 
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T. La répartition par classe d'âge de La population du district de la Chaux- 
de-Fonds en 1994 est donnée par le tableau suivant : 


Classe d'âge  % de la population Milieux de classes m, 


[0 - 5-[ 3,8 2,5 
[5 - 15-| dés 9,5 
[15 - 20 | 5,4 17.0 
[20 - 25 | 6,5 73,0 
[25 - 30 | LA 27,0 
[30 - 40 ! 15,1 34,5 
[40 - 50 | 13,4 44,5 
[50 - 60 | 11,6 34,9 
[60 - 70 [ 10,9 64,5 
[70 - 80 [ 8,2 14,5 
#0 et plus 4.6 85,0 


Statistique des assurés LAMO/LAMPA, environ 99% de La population 


(a) Compléter le tableau ci-dessus. 


(b) À l'aide du tableau complet, construire l'histogramme de cette dis- 
tribution. 


(c) Calculer l'âge moyen et l'âge médian de cette distribution (à l'aide 
des milieux de classes m:). 


(d} Calculer la proportion de citoyens âgés de plus de 30 ans. 


8. On dispose des données suivantes sur le nombre d'heures de travail heb- 
domadaire des femmes en Suisse en 1997 : 


Nombre d'heures Fréquences Fréquences 


par semaine (en millier}  cumulées 
j0- 10 163 163 
[10 - 20 | 186 
[20 - 30 | 230 
[30 - 40 | 175 
40 et plus 600 
Total 1 354 


(a) Compléter le tableau ci-dessus. 


(b} En utilisant la valeur centrale des groupes (centres de classe), calculer 
le nombre moven d'heures de travail par semaine. 
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9. Soit le tableau suivant tiré d'Accidents de la circulation en 1998" publié 
par l'Office Fédéral de la Statistique : 


Heure Accidents 
ÜW-11! 3 606 
{1-21 1 697 
D-31 1 480 
(3 4 | 1 159 
H-51{ 917 
(5-6! 886 
(6-7! 2 215 
r-81[ 3 621 
8-91! 3 101 
(9-10! 3 364 
[10-11 4 095 
[11-12 4 727 
12-131 4 497 
(13-14{ 4 726 
[14 - 15 | 5 109 
5-16 5 060 
Në-17{ 5 918 
HT-181 T 209 
[18 -19 | 5 454 
f19 - 20 3 789 
(20 - 211 2 914 
{21 - 22 | 2 478 
[22-231 2 668 
(23 - 24 [ 2 689 


(a) À partir de ces données, former les catégories suivantes: “nuits” | 1- 
6 |, “matin-heures de pointes" [| 6 - 8 |, “matinée” [ 8 - 12 [, “midi” 
[12-14 {, “après-midi” [14-17 |, “soir-heures de pointes" | 17-19 |, 
et “soirée” [19-11 {. 


{b) Pour chacune des catégories formées sous (a), déterminer la moyenne 
arithmétique. 


(c) En utilisant les résultats obtenus sous (b), calculer la moyenne totale 
pondérée, Comparer le résultat avec la moyenne arithmétique. 


(d) En vous référant aux points ci-dessus, peut-on affirmer que le nombre 
d'accidents est plus élevé dans les heures de pointes que dans les 
heures creuses? Argumenter. 


10. Les tableaux ci-dessous donne les effectifs ainsi que les salaires moyens des 
assistants (1000 Fr./an), chefs de travaux et professeurs pour les univer- 
sités de Neuchâtel, Genève et Lausanne. Compléter ce tableau. 
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Université Neuchâtel Genève 
Catégories effectif salaire moyen effectif salaire moyen 
Assistants 120 30 180 28 
Chef de travaux 50 45 75 55 
Professeurs 20 110 36 115 
Total 
Université Lausanne Ensemble 
Catégories effectif salaire moyen effectif salaire moyen 
Assistants 432 30,08 
Chef de travaux 210 51,40 
Professeurs 83 ee 
Total 725 46, 


PETER J. HUBER 


(1934 - ) 


Peter J. Huber est né à Wohlen, en 
Suisse, le 25 mars 1934. [l a brillamment 
effectué ses études et son doctorat en 
mathématiques à l'École Polytechnique 
Fédérale de Zürich où il reçut la 
médaille d'argent pour la qualité 
scientifique de sa thèse. [l entama 
ensuite une carrière impressionnante. 
Tout d'abord Professeur de statistique 
mathématique à l'École Polytechnique 
Fédérale de Zürich, il séjourna ensuite 
aux États-Unis dans les plus 
… prestigieuses universités (Princeton, 
Yale, Berkeley) en tant que Professeur 
invité. En 1977, il fut nommé Professeur 
à l'Université de Harvard, puis 
Professeur de mathématiques appliquées 
au Massachusetts Institute of 
Technology. Il est actuellement 
Professeur de statistique à l'Université 
de Bayreuth en Allemagne. 


Le Professeur Huber est un statisticien mondialement reconnu. Il est membre de la 
prestigieuse American Academy of Arts and Sciences, de la Bemouilli Socity et de la 
National Science Fundation aux États-Unis dont les membres étrangers sont 
extrémement rares. Depuis son article “ Robust Estimation of Location Parameter ”, 
paru en 1964, il est considèré comme le fondateur de la statistique robuste. 


Peter J. Huber reçu le titre de Docteur Honoris Causa de l'Umversité de Neuchâtel en 
1904, 
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Mesures de dispersion et de 
forme 


Après la mesure de la tendance centrale (moyenne, médiane ou mode) qui con- 
stitue la première étape de la description d'une distribution, la seconde étape 
consiste à mesurer l'étendue des observations autour de cette valeur centrale. 
En effet, si l'on observe différentes distributions, on constatera que pour cer- 
taines, les observations sont groupées à faible distance de la valeur centrale 
alors que pour d'autres, l'étalement des observations est nettement plus grand. 
Une indication supplémentaire à la tendance centralé est alors nécessaire pour 
pouvoir distinguer entre ces différentes formes de distribution. Les mesure de 
dispersion fournissent cette information et permettent de comparer les étendues 
des distributions entre elles. Encore d'autres mesures permettent de préciser 
l'allure des distributions du point de vue de l'asymétrie et de l’aplatissement. 

Nous présentons dans ce chapitre les mesures de dispersion les plus utilisées 
ainsi que des mesures d'asymétrie et d'aplatissement. 


T9 
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5.1 Dispersion 


À titre d'illustration, la figure 5.1 présente deux distributions qui diffèrent par 
leur dispersion. | 


Figure 5.1 : Deux distributions qui diffèrent par leur dispersion 


En plus de pouvoir effectuer une comparaison, la connaissance de La disper- 
sion d'une distribution peut avoir un intérêt pratique considérable. Prenons 
quelques exemples sommaires voire, À maints égards, évidents : qu'arriverait-il, 
par exemple, si certaines de nos décisions quotidiennes n'étaient basées que sur 
la moyenne ? 


e nos autoroutes seraient construites pour absorber le trafic moven, et les 
embouteillages des retours de week-end seraient incommensurables ; 


« les grands immeubles seraient construits pour résister à la force moyen-ne 
du vent, avec les conséquences que cela comporterait en cas de tempête ; 


« la connaissance d'un revenu moyen par habitant dans un pays donné con- 
duirait à ignorer la pauvreté d'une frange de La population : 


«+ dans une classe, il serait difficile d'appréhender les différences individuelles 
et d'analyser les problèmes pédagogiques qui se posent par ignorance des 
défavorisés : 


« en termes de contrôle de qualité, au cours d'un processus de production, 
tout écart à la norme moyenne conduirait à un taux de rejet excessif ou 
poserait des problèmes insolubles de “remboursements” ; 


Pour éviter ce genre de problèmes, il est nécessaire de prendre en compte non 
seulement la tendance centrale du phénomène considéré mais aussi les variations 
possibles autour de cette tendance centrale. 

Une autre signification de la mesure de dispersion est l'information qu'elle 
fournit visant à préciser la position relative d'une observation par rapport aux 
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autres. En eflet, prenons l'exemple des scores des élèves d'une classe. Un score, 
en lui-même, n'a pas de signification. Dire que quelqu'un a obtenu un score de 
19 points à un examen ne signifie pas grand chose. En revanche, ce score prend 
plus de sens s'il peut être comparé avec d'autres scores ou avec la moyenne des 
scores. Ainsi, si le score 19 peut être référé à une moyenne, par exemple 15, on 
peut dire de l'individu i en question qu'il est au-dessus de la moyenne ou qu'il 
se place dans la moitié supérieure de La population (ou de l'échantillon). On 
pourrait raisonner de façon similaire en considérant un score moins élevé comme 
11 par exemple. Mais l'information sur cet écart s'avère encore incomplète, car 
nous ne savons rien de la distance qui sépare le point i de la moyenne. Est-ce 
que les individus i (score = 19) et i' (score = 11} en sont proches ou éloignés ? 
Se trouvent-ils très au-dessus ou au contraire très en-dessous de la movenne ? 

Pour répondre à ces questions, il est nécessaire de décrire de façon plus com- 
plète la distribution, notamment en se référant à la dispersion des scores autour 
d'une mesure de tendance centrale, en l'occurence la moyenne. Dans le cas des 
variables quantitatives, cette mesure de dispersion est généralement exprimée 
par un indice numérique appelé variance. Il existe d'autres mesures de disper- 
sion s'appliquant aux variables quantitatives comme l'écart-type, l'écart-moyen 
ou le coefficient de variation. 


5.2 Variance et écart-type 


La variance d'un ensemble d'observations de valeurs quantitatives exprime la 
distance moyenne des observations par rapport à La moyenne de la distribution. 
Soit n observations z1,2%2,...,2,. La movenne de la distribution est exprimée 
par : 
(x Ter Tn) 

T1 
et la distance de chaque observation à cette movenne élevée au carré est : 


TE = 


(af, i=1,2,...,n. 


La moyenne de ces distances élevées au carré définit la variance notée : 


1 Li 
2 D r = 3 
Fe. 2 (ri Æ}". 


Considérons le tableau 3.8 (chapitre 3) et plus particulièrement la colonne 
relative au poids en kg de 42 étudiants d'un cours de statistique. 
On calcule le poids moyen des 32 étudiants en question et on obtient : 


64 + 59 + 64+ +61 2 102 
32 _. 32 
À partir de cette valeur, on considère le poids de chaque étudiant et on 


calcule sa distance au carré par rapport à la moyenne. Cela donne à deux 
décimales près, les valeurs du tableau 5.1 : 


= 65,69 kg. 


I = 
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Tableau 5.1 : Carré des écarts à la moyenne 


"(64— 68,60) = 2,45 (64 65,89) = 2,85. 
(50 — 65,69)  — 4472 (72-65,89) = 39,96 
(éd — 65,69)  — 285 (60-—65,609) = 32,35 
(62— 65,697  — 13.60 (55—65,69) = 114,23 
(51— 65,69) = 215,72 (80—65,69)* = 204,45 
(60 — 65,69) = 3235 (82-—65,69)7 — 266,10 
(68 — 65,69) = 5,35 (72-65,69) = 39,85 
(63—65,69) = 7.22 (74—65,69)7 — 151,60 
(02 65,69)7 = 692,35 (71—65,69)7 — 28,27 
(T0 — 65,69) = 18,60 (72—65,69)" = 39,85 
(66 — 65,69) = 010 (70—68,69)7 = 177,22 
(55 — 68,69) = 114,22 (70—65,69)7 — 18,60 
(85 -65,60)7 = 114,22 (52—65,69) — 187,35 
(58—-65,69)7 = sh.10 (68—65,69)7 — 5,35 

= 32,35 


(59— 68,69) = 44,72 (60 — 65,69)! 


(60 — 65,69)? 32,35 (61 — 65,69) a. 07 


Enfin, on obtient la valeur de la variance en calculant la moyenne des dis- 
tances AU CAITÉ : 


a? 75 (2,85 + 44,72 +... + 21,97) 


= 66,341. 


On en conclut que la distribution des poids des 32 étudiants du tableau 3.8 
est caractérisée par une movenne de 65,69 kg et une variance de 86,34. Ce 
caractère spécifique nous permet de comparer l'étalement de différentes distri- 
butions. Par exemple, considérons les poids d'un deuxième groupe d'étudiants 
donnés dans le tableau 5.2 : 


Tableau 5.2 : Poids d'un deuxième groupe de 32 étudiants 
U'UTD”DJ_>DJDODOD_D_pUpUpUOUCUCUCUEEEEESS————— 


N° poids H® poids 

d'érdre en kg d'ordre LEE kg 
L 59 17 53 
4 67 1# LE 
à 60 15 43 
À Gl pe Go 
3 sa 21 s# 
& Ta 22 54 
T GU 23 54 
LA Gil 24 Ga 
ÿ üT 25 GG 
Lù 50 26 Gi 
il F1 27 GT 
1 LE: 18 57 
13 G# 27 LL: 
14 55 EL] ii 
15 60 31 Lit 
16 o4 J2 46 


Le calcul de la moyenne et de la variance montre que les poids movens 
des groupes d'étudiants sont les mêmes, mais qu'en revanche, la variance du 
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deuxième groupe est légèrement plus élevée que pour le premier. Ceci révèle 
qu'il y a plus de diversité entre les “gros” et les “minces” parmi les étudiants 
du deuxième groupe que parmi les étudiants du premier groupe. Le calcul de la 
moyenne et de la variance donne : 


09 + 67 + 60 +--- +46 2 029 
32 7 32 


E = 


= 63, 41 kg 


1 
8? — : [(59 — 63,4)? + (67 — 63,4) +. + (46 — 63,4)?] — 93,49. 


La distribution des poids des étudiants du deuxième groupe est donc carac- 
térisée par une moyenne de 63,41 kg et une variance de 93,49. 

En comparant les résultats obtenus, on remarque que les étudiants du deux- 
ième groupe sont en moyenne plus légers que ceux du premier, mais l'hétérogéné- 
ité entre “gros” et “minces” est plus importante parmi Les étudiants du deuxième 
groupe que parmi ceux du premier, 

En pratique, on peut calculer La variance d'un ensemble d'observations d'une 
manière plus simple en développant la formule de la variance comme suit : 


Il 
se 
Es, 
El 


=. 
= 


Il 
al 
[M2 

k 

+ 

i 

LS 

Le 

LA 
= 

E 

3 


Îl 
al 
M2 

1 

hp 
| 

ty 

Lr 


Ainsi, dans l'exemple des poids exprimés en kg de 32 étudiants (Tableau 
38), on obtient : 


1 
s — 35 (64° + 597 +... + 612) — (65,69)? 


Souvent on calcule la racine carrée de la variance, appelée écart-type (noté 
par 8) = V's?, L'écart-type exprime la même caractéristique que la variance mais 
tient compte de l'unité de mesure. Ainsi, la variance des poids d'un ensemble 
d'étudiants est exprimée en kg carré, alors que l'écart-type est exprimé en kg, 
donc selon la même unité de mesure de poids. Dans l'exemple précédent, le 
calcul de l'écart-type des deux groupes d'étudiants donne : 
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écart-type 
premier groupe : 86, 34 = 9,29 kg 
deuxième groupe : _,/03,49 — 9,67 kg. 


La notion de variance et d'écart-type s'applique d'une façon générale à toute 
variable quantitative (dont la moyenne a une valeur finie). Considérons une 
variable quantitative discrète À, pouvant prendre # valeurs distinctes : 


Æ Eds Eh 
avec une distribution de fréquences : 
Ni, The. Tlk: 
La variance de la variable ÆÀ est calculée comme suit : 
s(X)= Ne -3} 
1 
L'3 


où n = Sm: L'écart-type est égal à : 


(À) = 34 X) = 


Exemple 5.1 Considérons le tableau 5.3 représentant les résultats obtenus 
par 71 élèves d'une école technique à un test d'habileté manuel noté de 1 à 9. 


Tableau 5.4 : Résultat de 71 élèves d'une école technique 


Note Fréquence 
1 1 


D 0 1] © or Oo 19 


Calculons l'écart-type : 
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Tableau 5.4 : Calculs préliminaires (écart-type) 


Ti M Ti—-É (nn -#) n(xm-37} 
1 1 —4,17 17,49 17,39 

2 3 —3,17 10,05 50,25 

J 9 —-2,17 4,71 42,39 

4 13 —1,17 1,37 17,81 

5 10 —0,17 0,03 Ü,30 

6 17 0.83 0,69 11,73 

T 6 1,83 3,35 20,10 

8 fi 2,83 3,01 96,07 

g à 3,83 14,67 44,01 


Pour établir le tableau ci-dessus, 1l est nécessaire de calculer au préalable 
la moyenne en considérant les colonnes r; et n;. Nous obtenons une valeur de 
3,169 arrondie pour notre calcul à 5,17. Les autres colonnes peuvent ensuite 


être remplies. 


On note que dans cet exemple, ainsi que dans les exemples précédents, la 
somme des écarts de chaque observation à la moyenne est égale à zéro, On peut 
vérifier que pour l'exemple ci-dessus on a effectivement : 


dé 
É 

Q 

+ 
] 


1:(—4,17)+5-(—3,17) +... +3: (3,83) 


—0,07 & 0. 


{La différence de 7/100 est due aux arrondis à La 2 décimale choisis pour le 


calcul.) 


Ce résultat peut se vérifier d’une façon générale : 


> (= — ) — >= -Yÿz 


82 Chapitre 5 


La variance d'une variable continue se calcule selon la définition générale, en 
effectuant la moyenne des écarts élevés au carré, séparant les observations de la 
moyenne de la distribution. 

Si les observations sont groupées en intervalles et les observations individu- 
elles ne sont pas connues, le calcul exact de la variance ne peut s'effectuer. 
On doit souvent se contenter d'une estimation inférieure pour la valeur de la 
variance. 

Considérons l'exemple 4.10 (Chapitre 4) concernant la distribution des notes 
de 9JÙ apprentis à un test de performance générale. Les scores sont groupés en 
9 intervalles de classes. Le calcul de la variance pourrait s'effectuer comme si 
les données correspondaient à une variable quantitative discrète. Dans cette 
hypothèse, on obtient : 


Tableau 5.5 : Calculs préliminaires (variance) 


Score tj mn tx (xi—#)? fi(r —-#}) 
16-20 18 2 21 441 882 
21-25 23 5 —16 256 1 280 
26-30 25 8 —]1 121 068 
31-35 3 17 —6 36 612 
36-40 38 11 —] 1 11 
41-45 43 26 4 16 416 
46-50 48 15 9 81 1 215 
51-55 53 5 14 196 580 
56-60 58 1 19 361 361 
k 9 


9 
(x) = D n(a - 2) 
i=] 
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= fà,fé 


Note : pour simplifier les calculs, la moyenne a été arrondie à l'unité. 

Dans ce calcul, il a été supposé que, pour chaque intervalle, les observations à 
l'intérieur sont égales et la valeur commune est le point central de l'intervalle, On 
a donc ignoré la variabilité qui pourrait exister à l'intérieur de chaque intervalle. 
Ceci introduit un biais et le résultat obtenu est donc une approximation de la 
valeur exacte de la variance. La valeur obtenue est généralement une estimation 
inférieure à la valeur exacte de la variance. Le biais est toutefois plus faible 
lorsque les intervalles de classe sont étroits. 


5.3 Propriétés de la variance 


« La variance a toujours une valeur non-négative s* > 0. Ceci découle du 
fait que la notion de variance est basée sur l'écart au carré, donc une 
quantité non-négative. 


e La variance est égale à z6ro, si toutes les observations sont identiques. 
Ainsi, pour l'ensemble des 8 valeurs : 


3, 4, 3, 9, 4, 9, 4, 


la movenne est égale à 4 et la variance à Ô. 
1 
= 1-3)" +(68-3)+...+(8-3}] = 0 


+ En ajoutant une valeur constante à chacune des observations, on ne change 
pas la valeur de la variance. Donc les deux ensembles : 


{3,2,4,5,7} 


et 
(13, 12, 14, 15, 17} 


ont la même variance : 
1 
s = =[(8—4,2/ +(2-4,2) +...+(7—4,2) 
= 2{U3— 14,2)? + (12 14,2)2 + +. + (17 — 14,2) 


1 
= 2{14,80] = 2,96. 


°+ En multipliant chacune des observations par une valeur constante positive 
ou négative, on modifie la valeur de la variance à un facteur multiplicatif, 
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égal au carré de la valeur constante d'origine. Ainsi, en multipliant par 
deux chaque observation de l'ensemble : 


13,2,4,5,7} 


cela donne l'ensemble : 
{6, 4, 16, 10, 14} 


dont la variance est égale à : 


Le 


8 = —[(6— 8,4) + (48,4)? +... + (14 —8,4)] 


(59, 20) = 11,84 


le © 


qui correspond à 2° = 4 fois la variance de l'ensemble original : 


11,84 = 2°. 2 96. 


D'une façon générale, si la variable Ÿ” est obtenue à partir de la variable 
X, par la relation linéaire Y = a X + b, alors la variance de Ÿ est liée à 
celle de À par la relation : 


(Y}= a“ (X)}. 
Les écarts-types correspondants sont quant à eux liés par la relation : 
s{Y}=a:s(X). 


Exemple 5.2 Les chiffres suivants donnent la température en centigrade 
{C"} durant 7 jours consécutifs à Thèbes 4 13h : 


38 40 39 38 38 41 41. 
Les températures en degrés Farenheit (F = 33 + 9/5C} sont : 
100,4 104,0 102,2 100,4 100,4 105,8 105,8 


Le calcul suivant donne l’écart-type de La température à Thèbes, en centi- 
grade et en Farenheit, respectivement : 


s(C) = VAE = 1,28 


id 


s(F) = FIL 9,30. 


ni 


Utilisant la relation s(F) = s(932+9/50) = 9/5s(C), on vérifie que l'écart- 
type en Farenheit est égal à neuf-cinquième de l'écart-type en centigrade : 


(F) = 2s(C) 


9 
—1, 28. 
ÿ 


2,30 
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«+ La variance d’un ensemble d'observations composé de deux sous-ensembles 
peut être exprimée en fonction des variances de ces sous-ensembles et de 
leurs moyennes respectives. 

Exemple 5.3 Considérons les salaires horaires de 12 ouvriers d'une fab- 
rique de textile dont la moitié sont des femmes : 


Hommes (H} 22, 23, 23, 34, 28, 28 
Femmes (F} 18, 24, 24, 26, 21, 25. 


On peut vérihier que la variance totale se décompose ainsi : 
#/(totale) = Is (A) +8 4F)] + SIC) = z(PJE. 


En calculant les salaires horaires moyens des hommes et des femmes s6- 


parément : 
E(H) = 26 F(F)= 23 


ainsi que les variances : 


104 96 
o = — o = = 
s"(H\ = G s"(F) Fe 
on obtient : 
1 [104 56 1 
2 ER int M (96 — 2312 
s“(totale) | 5 * F | + 5126 3) 
80 27 
FE Fe = 17,8 


Ce résultat est bien égal à la variance du salaire horaire pour l'ensemble 
des ouvriers obtenue directement à partir des 12 valeurs (22, 23, 23, 34, 
28, 26, 18, 24, 24, 26, 21, 25) : 


s?(totale) (22 — 24,5) +. + (25 — 24.5)7] 


17,8. 


La valeur 24,5 correspond au salaire horaire moyen, femmes et hommes 
confondus. 

Ce résultat peut se généraliser à des situations plus complexes où, par 
exemple, les sous-ensembles n'ont pas le même nombre d'observations ou 
bien lorsqu'il y a plus de deux sous-ensembles. 


5.4 Autres mesures de dispersion 


5.4.1 Empan 


L'empan d'une série de nombres est la différence entre le nombre le plus élevé 
et le nombre le plus bas (on parle aussi, parfois, de marge de variation). 


86 Chapitre 5 


Ainsi, dans le tableau 4.8 (Chapitre 3), l’empan des poids de l'échantillon 
de 32 étudiants est de : 


poids le poids le 
plus élevé plus bas empan 
92 - 51 = 41. 


L'empan indique l'étendue de l'échelle. 


5.4.2 Écart moyen 
L'écart moyen d'une série de nombres est défini par la formule suivante : 


n 


Ÿln-3] 
E.M.=— i=1 
nl 
L'expression | r; — 3 | signifie que le résultat de l'opération de soustraction 
est pris en valeur absolue, sans tenir compte du signe. 
L'écart moyen de la série de nombres 2, 4, 5, 8, 12 est : 


|2—-61+13-61+15-61+18-61+112-6| 


E.M. = 
5] 


4+3+1+2+6 


5 
16 
ARE 
à $, 


où 


_ 2+3+54+8 +712 


L'écart moyen exprime l'ordre de grandeur des déviations autour de la 
moyenne. 


5.4.3 Écart médian 


L'écart médian se calcule comme l'écart moyen, mais à partir de la médiane, 
med : 


| 


Emed = = 
Fi 


L'écart médian de la série de nombres 2, 4, 5, 8, 12 est : 
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2-65 3—5 D — à 8-51+112-65 
A OL RAR UF LE AE CE TESRE EL 
__ 3+2+0+3+7 
L ÿ 
15 
= ——=; 
5 


5.4.4 Écart géométrique 


On définit E.géom, l'écart géométrique autour de la moyenne géométrique G 
par : 


1 FL 
log E.géom = = 2 (log x; — log G}°. 


L'écart géométrique de la série de nombres 2, 3, 5, 8, 12 se calcule de la 
façon suivante : 


(log 2 — log 4, 919)? + (log 3 — log 4, 919)° 
log E.géom = £ +(log5 — log 4,919)? + (log 8 — log 4, 919)* 
+ (log 12 — lag 4, 919)* 


= 0,0787 


où 


G= V2.3.5-8:12 = 4,919. 
On a donc : 


E.géom = 1000787 = ] 197. 


5.4.5 Intervalle interquartile 


L'intervalle interquartile est une mesure de dispersion correspondant à l'inter- 
valle comprenant 50% des observations les plus au centre de la distribution. 

Pour calculer cette mesure de dispersion, on définit tout d'abord les no- 
tions suivantes. 

Les quantiles sont des mesures de position (ou de location) qui ne tentent 
pas nécessairement de déterminer le centre d'une distribution d'observations, 
mais de décrire une position particulière. 

Cette notion est une extension du concept de la médiane (qui divise une 
distribution d'observations en deux parties). Les quantiles les plus fréquemment 
utilisés sont : 


« les quartiles qui divisent un ensemble d'observations en quatre parties 
égales ; 
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« les déciles qui divisent un ensemble d'observations en dix parties égales : 


« les centiles qui divisent un ensemble d'observations en cent parties égales. 


Le calcul des quantiles n’a de sens que pour une variable quantitative pouvant 
prendre des valeurs sur un intervalle déterminé. 

Le concept de quantile indique la division d'une distribution d'observations 
en un nombre quelconque de parties. Remarquons que plus le nombre d'obser- 
vations est élevé, plus nous pouvons diviser finement la distribution. 

Les quartiles peuvent généralement être utilisés pour toute distribution. 

Le calcul des déciles et a fortiori celui des centiles, nécessite un nombre 
d'observations relativement grand pour avoir un sens utile. 

Voici, schématiquement, une distribution partagée en quartiles, Entre chaque 
quartile se trouvent 25% des observations : 


23 % 25 25 % 25 % 


Le 4 É 
quartile quartile quartile 


Notons que le 2° quartile est égal à la médiane. 

Le processus de calcul du quartile est similaire à celui de la médiane. 

Lorsque nous possédons toutes les observations brutes, le processus de calcul 
des quartiles est le suivant : 


1. organiser les n observations sous forme d'une distribution de fréquences ; 


2. les quartiles correspondent aux observations pour lesquelles la fréquence 
relative cumulée dépasse respectivement 25%, 50% et 75%. 


Certains auteurs proposent la formule suivante qui permet de déterminer 
sans ambiguïté la valeur des différents quartiles : 

Calcul du j° quartile : 

Soit 1 la partie entière de j-(n+1}/4 et k la partie fractionnelle de 7-(n+1)/4 

Soient ti, et tys41) les valeurs des observations classées respectivement en 
et (t+1}° position (lorsque les observations sont classées par ordre croissant). 

Le 7° quartile est égal à : 


Q: = con + (6 (rien — t)). 


Lorsque nous possédons des observations groupées en classes, les quartiles 
se déterminent de la manière suivante : 


1. Déterminer la classe dans laquelle se trouve le quartile : 
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(a) 1” quartile : classe pour laquelle La fréquence relative cumulée dé- 
passe 25% ; 


(b} 2° quartile : classe pour laquelle La fréquence relative cumulée dépasse 
50% ; 

(c) 3° quartile : classe pour laquelle la fréquence relative cumulée dépasse 
15%. 


2. Calculer la valeur du quartile en fonction de l'hypothèse selon laquelle les 
observations sont distribuées uniformément dans chaque classe : 


: (mg) — 5 rm(inf) 
RE nlquartile) ds 
où 


L = borne inférieure de la classe du quartile 


nombre total d'observations 


Il 


TE 
q = ]l/4 pour le 1“ quartile 

1/2 pour le 2° quartile 

3/4 pour le 3° quartile 

somme des fréquences absolues des classes 
se situant avant la classe du quartile 
ni(quartile) = fréquence absolue de la classe du quartile 
c = largeur de La classe du quartile 


F_ n(inf) 


Le quartile permet d'obtenir des informations relatives aux intervalles dans 
lesquels se situent les quarts successifs de l'ensemble des observations. 

La notion de quartile est similaire à la notion de médiane. Elle est aussi 
basée sur le rang des observations plutôt que sur leur valeur, Une observation 
aberrante n'aura donc que peu d'influence sur la valeur des quartiles. 


Exemple 5.4 Prenons tout d'abord un exemple avec dix observations (n = 10) : 


1121445556 7 9. 


Bien que le calcul des quartilés ne soit en principe pas d'un fort intérêt pour 
un si petit nombre d'observations (il faut être très prudent dans leur interpré- 
tation}, nous allons quand méme étudier ce cas en vue de comprendre les règles 
de calcul. 

Le premier quartile Q, se trouve à la position (n + 1)/4 = 2,75. Le quartile 
Q est donc entre la 2° et la 3° observation (que nous appellerons x,3, et xs), 
aux trois quarts de la distance entre ces deux observations. Nous pouvons donc 
calculer Q@, de la manière suivante : 
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Qi = Tia +0,75 - (ris) — rx) 
= 3,5. 


Le deuxième quartile Q3 (qui est égal à la médiane), se trouve à la position 
2-(n+1)/4 (ou (n+1}/2}, ce qui est dans notre exemple 5.5. Il est donc égal 


E 


& : 


Q2 = ris) + 0,5: (re) — z{s)) 
= à, 


Le troisième quartile Os se trouve à la position 3: {n + 1}/4 = 8,25. Le 
quartile Q3 est donc égal à : 


Ga = T8) + 0,25 - (ro) — zta)) 
= 6+0,25-(7 —6) 
= 6,25. 


Nous pouvons donc dire que les valeurs 4,5, 5 et 6,25 partagent l'ensemble 
des observations en 4 parties essentiellement égales. 
L'intervalle interquartile se calcule de la façon suivante : 


1Q = Q3-@ 
= 6,25 — 3,5 
= 2,75. 


Cela sigmfie que 50% des observations (celles comprises entre le premier et 
le troisième quartile) ont un écart maximal de 2,75. 


Exemple 5.5 Considérons le tableau de fréquences 5.6 : 

Le 1° quartile est égal à l'observation dont La fréquence relative cumulée dé- 
passe 25%, ce qui correspond à 2 enfants (puisque la fréquence relative cumulée 
pour 2 enfants va de 22 à 47%, ce qui inclut 25%). 

Le 2° quartile est égal à 3 enfants puisque la fréquence relative cumulée pour 
3 enfants va de 47 à 74%, ce qui inclut 50%. 

Le 4° quartile est égal à 4 enfants puisque la fréquence relative cumulée pour 
4 enfants va de 74 à 95%, ce qui inclut 75%. 

Les quartiles Q:, Q: et Q3 divisent les 200 familles en quarts. Nous pouvons 
donc attribuer 50 des 200 familles au premier quart avec 0, 1 ou 2 enfants, 50 au 
deuxième quart avec 2? ou 3 enfants, 50 au troisième quart avec 3 ou 4 enfants 
et 50 au quatrième quart avec 4, 5 ou 6 enfants. 
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Tableau 5.6 : Nombre d'enfants par famille sur 
un ensemble de 200 familles 


Valeur Fréquences absolues Fréquences Fréquences 


(nombre {norabre relatives relatives 
d'enfants) de familles) cumulées 

0 6 0,03 0,03 

1 38 0,19 0,22 

2 5Û 0,25 0,47 

3 54 0,27 Ü,74 

4 42 Q,21 0,95 

5 8 0,04 0,99 

ü 2 0,01 1,00 

Total 200 1.00 


L'intervalle interquartile est ici : 


1Q = Q3-G@i 
Fe. 
= À 


Cela signifie que dans 50% des familles (celles se trouvant au centre dé la 
distribution), le nombre d'enfants varie au plus de deux enfants environ. 


Exemple 5.6 Considérons à présent un exemple de calcul des quartiles à 
partir de la distribution de fréquences d'une variable continue où les observations 
sont groupées en classes : 

Tableau 5.7 : Profits (en milliers de francs) de 100 épiceries 


Profit Fréquences Fréquences Fréquences 


(en milliers  absolues absolues relatives 
de francs) cumulées cumulées 
100-2K) 10 10 0,1 
200-300 20 30 0,3 
d00)- 400) 40 40 0,7 
400-500 30 100 1.0 
Total 100 


La classe comprenant le 1° quartile est la classe 200-300. 
En considérant que les observations sont distribuées de manière uniforme 
dans chaque classe, nous obtenons pour le premier quartile la valeur suivante : 
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1° quartile = 200 + - 100 
= 275. 


La classe comprenant le 2° quartile est la classe 300-400. La valeur du 
quartile est égale à : 


1/4) — © 
20 


100 - 2/4) — 
2° quartile — 300 + — 


= JoÛ. 


La classe comprenant Le 3° quartile est la classe 400-500. La valeur du 
quartile est égale à : 


|-100 


100 - 4/4} — 70 
3° quartile — 400 + ET) 100 


= 416,66. 


Nous pouvons donc conclure que 25 des 100 épiceries ont un profit compris 
entre 100 et 275 milliers de francs, 25 ont un profit compris entre 275 et 350 
milliers de francs, 25 ont un profit compris entre 350 et 416,66 milliers de francs, 
et 25 ont un profit compris entre 416,66 et 500 milliers de francs. 

Dans ce cas, l'intervalle imterquartile vaut : 


1Q 416,66 — 275 
= 141,66. 


Îl signihe que dans le 50% des épiceries se trouvant au centre de la distribu- 
tion, le proût varie au plus de 141,66 milliers de francs environ. 


3.4.6 Différence moyenne 


La différence moyenne d'une série, d, est la moyenne arithmétique des valeurs 
absolues des différences que l'on peut former en associant les observations deux 
à deux de toutes les manières possibles, y compris à elles-mèëmes. Pour n obser- 
vations d'une série, il y a n° différences possibles. 


Exemple 5.7 On a les observations suivantes : +1 = 6, #3 = 8, xr3 = 9, 
Ta = 10, #5 = 11. On calcule le tableau des différences : 


0 2 3 4 5 
Ù 1 2 3 
D 1 à 

0 1 


=) 
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d'où 
_ 2-(2+3+4+5+1+2+3+1+2+1) 


d 52 


= |,92, 


5.4.7 Coefficients de dispersion relative 


Les coefficients suivants permettent d'éviter l'influence de l'unité de mesure sur 


la variable étudiée et donc de comparer les séries statistques établies sur deux 
variables différentes. 


«+ Coefficient quartile (ou semi-interquartile relatif}: Q, 


Q, = E.med 
ou 
r __Qs—Qi 
@, Md 
= 0 
Q. Qs + Q: 3 


Si la distribution est symétrique, Q: = Q,. 


« Coefficient de variation : 


v= 


hi | 


5.5 Mesure de dispersion des variables 
qualitatives 


La variance, l'écart-type, l'empan et les autres mesures de dispersion présentées 
dans les sections précédentes de ce chapitre ne s'appliquent qu'aux variables 
quantitatives, Une variable qualitative, n'ayant pas de valeurs numériques, ne 
se préte pas aux calculs arithmétiques exigés par les définitions des mesures de 
dispersion des variables quantitatives. 

Toutefois, La notion de dispersion s'applique aux variables qualitatives, aussi 
bien qu'aux variables quantitatives. La couleur des veux d'une population 
peut être plus variée que celle d'une autre. Il s'agit d'appréhender cette vari- 
abilité avec une mesure appropriée. On considérera d'abord les variables di- 
chotomiques, 
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5.5.1 Variables dichotomiques 


Les valeurs prises par une variable dichotomique peuvent étre associées aux 
nombres Q et 1. Par exemple, pour la variable dichotomique “sexe” dont les 
catégories sont H pour homme et F pour femme, on peut associer le chiffre À à 
la catégorie H et le chiffre 1 4 La catégorie F. Dans ce sens, la variable qualitative 
“sexe” peut donc être représentée par une variable quantitative X prenant les 
valeurs numériques Ü et 1 : 


0 si sexe = H 
l si sexe = F 
Les observations 21,...,, représentent donc le sexe, homme ou femme d'un 
ensemble de n personnes. 
La dispersion de la variable “sexe” est ainsi mesurée par la dispersion des 
observations numériques %1,...,2%n. Si la dispersion est mesurée par la variance, 
on obtient : 


SX) 


où, dans la dernière expression, on a utilisé le fait que pour une variable di- 
chotomique x? = x;. On simplifie l'expression pour obtenir : 


Le LL | 
Den D 
SX) = = QE + 7° 
LE #1 
= F-92247 
= 3} -Hl-E#) 


FL 
En notant que ? = Ÿ° x;/n est égal à la proportion des observations dans la 
=] 
deuxième catégorie (proportion des femmes dans cet exemple) et 1-2 est la pro- 


portion des observations dans la première catégorie (proportion des hommes), 
on obtient : 


s'(X) = pq 


oùp= 2e et gy= 1-2. 
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5.5.2 Variables multicatégorielles 


Par analogie avec le résultat pour les variables dichotomiques, on peut définir 
la variance d'une variable multicatégorielle par : 


SX) = papa pe 


où P1,Pe,...,pe sont les proportions des observations dans la première catégorie, 
la deuxième, et ainsi de suite jusqu'à la dernière catégorie. 


Exemple 5.8 On observe la couleur des veux de deux populations À et B, A 
contenant 108 personnes et B 130. Les résultats sont présentés dans le tableau 
5.8. 


Tableau 5.8 : Distribution de couleurs des yeux de deux populations 


Couleur des veux 
Population Bleu Vert Brun Noir Total 
À 42 31 18 17 108 
B 13 25 34 58 130 


On calcule la variance de la couleur des veux de chaque population suivant 
la définition donnée dans La section précédente, notamment : 


S(X) = ppapaps 


où le nombre des catégories, À = 4, correspond au nombre de couleurs des veux. 


SUXA) = 506 108 108 108 
= {,0029 
et 
Ps) = SE 


= (,0022. 
Comparant ces résultats, on en déduit que la variabilité de la couleur des 
veux de la population À est légèrement plus élevée que celle de la population B. 
5.6 Mesures de forme 


Les caractéristiques de forme permettent de préciser l'allure générale de La 
courbe des fréquences sans avoir besoin de la tracer. 
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On repère généralement deux mesures de la forme d'une série : celle de 
l'asymétrie a pour objet de nous renseigner sur la façon régulière ou non dont 
les observations se répartissent de part et d'autre d'une valeur centrale. Celle 
de l'aplatissement a pour objet de faire apparaître si une faible variation de 
la variable entraîne ou non une forte variation des fréquences relatives. 


5.6.1 Mesure de l’asymétrie 
Définition 


Une distribution statistique est symétrique si les observations sont également 
dispersées de part et d'autre d'une valeur centrale, 

On choisit généralement les trois valeurs centrales suivantes pour repérer 
l'asymétrie : 


« le mode (mod) ; 
« la médiane {med} ; 
« la moyenne arithmétique (#). 


Comme déjà vu au chapitre 4, une distribution est dite étirée à droite (ou 
oblique à gauche} si on trouve de gauche 4 droite le mode, la médiane et la 
moyenne ; elle est dite étirée A gauche {ou oblique à droite) si on a de gauche à 
droite l'ordre inverse. (Figure 5.2 et 5.3) 


med me mary 


Figure 5.2 : Distribution étirée à droite ou oblique à gauche 


Les coefficients d'asymétrie 


Il s'agit ici de mesurer le degré d'asymétrie mentionnée dans le paragraphe 
précédent : pour cela, on a à disposition plusieurs coefficients, permettant des 
comparaisons. 

Nous en retiendrons ici trois, connus par les noms de leurs auteurs : Yule, 
Pearson et Fisher. 
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Fey Eeal Mrcd 


Figure 5.3 : Distribution étirée à gauche ou oblique à droite 


1. Le coefficient de Yule 


Yule propose une mesure de l'asymétrie en comparant l’étalement vers la 
gauche et l'étalement vers La droite, tous deux repérés par la position des 
quartiles (Q:1,med, Os). 


Le coefficient d'asymétrie de Yule s'écrit : 
: (Qa — med) — (med — Qi} 


(Qs — med) + (med — Q:) 
On a : 


s={(l< symétrie parfaite : 
s > Ü ++ oblique à gauche (ou étalement à droite) ; 
s < 0 < oblique à droite (ou étalement à gauche). 


2. Les coefficients de Pearson 
Pearson propose deux coefficients. 


(a) Le premier analyse la position de deux valeurs centrales (le mode et 
la moyenne arithmétique) relativisée par la dispersion de la série : 


p=0+ symétrie ; 
p > Ü «+ oblique à gauche (ou étalement à droite) ; 
p < 0 + oblique à droite (ou étalement à gauche}. 


Remarque : ce coefficient est plutôt performant pour des distribu- 
tions faiblement asymétriques. 
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(b) Le deuxième coefficient d’asymétrie de Pearson (4, ) est plus élaboré : 
il s'appuie sur le calcul des moments centrés. Il s'écrit : 


hi = Hi 
H5 
où 
Ha = M3 — Immo + 2mŸ 
Ha = Ma — Mi = 
avec 


M] = + = 5 
Fi 
RE 
Mig — a: 
as? 
lg = Sn : 
De façon plus générale, on a : 
1 À 
Moment d'ordre r : Mr = _ 2 Nit. 


k 
L 
Moment centré d'ordre r: y, = = ÿ Tir: — ENT. 
im) 


On a : 


3, = 0 < symétrie ; 
5, > 0 + oblique à gauche (ou étalement à droite) : 
F, < 04 oblique à droite (ou étalement à gauche). 


3, Le coefficient de Fisher 


Fisher propose le coefficient suivant, qui n'est autre que la racine carrée 
du coefficient , de Pearson : 


Yi -$ 
oil 

= \/uà. 
On a : 


Y=0< symétrie ; 
+, > 0 & oblique à gauche (ou étalement à droite) : 
1 < 0 + oblique à droite (ou étalement à gauche). 
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Exemple 5.9 Soit la distribution du tableau 5.9 : 


Tableau 5.9 : Calculs intermédiaires (coefficients d'asymétrie} 


i 3 


d'où : 
8 = (@s — med) — (med — Qi) _ (00,7 — 79,1) — (79,1 — 68,2) _ 
7 (Qs— med) + (med — Q1) (90,7 — 79,1) + (79,1 — 68,2) 
I — mod 4,8 
on a 
_ 4 1788398 
B= M3 13 559 592 rue 
_us _1337,31 
Ti _ Æ ee 3 680,8 = (}, 364. 


Classes on; T; TiT nr nr} 
50 — 60 8 55 440 24200 1 331 000 
60 —70 10 65 650 42250 2 746 250 
10 — #0 16 75 L 200 90 O00 6 750 000 
80 — 90 14 85 1190 101150 8 597 750 
90 — 100 10 95 950 90250 8 573 750 
100 — 110 5 105 525 55125 5 788 125 
110 — 120 9 115 230 26 450 3 (41 750 
Total 65 5 185 429425 36 828 625 
On trouve : 

mod © T5 

med = 79.1 

Q = 68.2 

Qs = 90.7 

D ne LE = 79,8 

a x 
ma = Lu = So = 6 606,5 
27 36 828 62 
Ms = 2e? Ai = SES = 566 594,2 


Ha = Ma — mi = 238,46 = s — 15,44 
Ha = Ma — Fmaimo + 2m = 1 337,31 


+ la distribution est donc légèrement oblique à gauche. 


= {), (3 
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5.6.2 Mesure de l'aplatissement 


Définition 


On cherche à déterminer si une courbe des fréquences est plus ou moins aplatie, 
par référence à la courbe de la loi normale (pour plus de détails concernant la 
loi normale, voir la suite de l'ouvrage). 

Aïnsi, une distribution est dite aplatie si une forte variation de la variable 
entraîne une faible variation de la fréquence relative (et inversement). La figure 
5.4 présente 3 courbes avec des coeffcicents d'aplatissement différents. 


Figure 5.4 : Trois courbes avec des coefficients d'aplatissement différents 


Les coefficients d'aplatissement 


On compare une distribution à une courbe normale de même moyenne et de 
même écart-type afin de déterminer si elle est plus ou moins aplatie. 


1. Le coefficient de Pearson 
Il s'écrit : 


Ce coefficient est d'autant plus faible que la courbe est platicurtique. 
5, prend la valeur 3 pour une distribution normale. 

2. Le coefficient de Fisher 
Il est égal à : 
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+2 prend la valeur 0 pour une distribution normale. 


+2 est positif pour une distribution leptocurtique. 


Exemple 5.10 Soit la distribution suivante : 


Tableau 5.10 : Distribution 
T4 Ü 1 2 3 
fi 0,216 0,432 0,288 O,064 


On obtient le tableau suivant : 


Tableau 5.11 : Calculs nécessaires (coefficients d'applatissement} 


Ti J fix: fix? {ri 2) fifm-2) ff) fi(m-2) 
1] 0,216 LL Î 1.2 0,411 0,373 0, 448 
| 0,442 0,432 0, 432 —0, 2 0,017 — 0, OS 0, 0006 
2 0,288 0,576 1,152  +0,8 0,184 +0, 147 Ü, 11766 
4 0, 064 0, 192 0,576 +1,8 0, 207 +0,373 0,6718 
1 1,2 2,16 0,72 G, 144 1, 238 
mu=E _ "a Hg hs Ha 
d'où : 
_- Ha _— O, 144 — = 
Be 072 0 |. la distribution est 
Y1 = Ha _ 014 0. 24 oblique à gauche 
53 0,72 
di 1,238 
a _ Ha __ = : 
Br pin — 299 (<3) la distribution est 
F4 1, 238 ati t1 
= _4— =3= 0,61 platicurtique. 
MEET GTR 


5.7 Historique 


L'écart-type est une mesure de dispertion aujourd'hui très répandue. Pour- 
tant, cette notion n'apparaît que très tardivement dans la littérature : le terme 
“écart-type" ou “standard deviation" est étroitement lié aux travaux de deux 
mathématiciens anglais, K. Pearson et W. 8. Gosset. 

C'est en effet au cours d'une conférence qu'il donna devant la Royal Society 
de Londres en 1893, que K. Pearson l’utilisa pour la première fois. Et c'est 
également à lui que l'on doit l'introduction du symbole & pour désigner l'écart- 
tvpe. W. 5. Gosset, dit Student, se consacra également à ces problèmes et 
formalisa les travaux dans ce domaine. Il s'attacha notamment à expliquer 
pourquoi il importe de distinguer s (écart-type relatif à un échantillon) de à 
(écart-type relatif à la population). 
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L'écart-type d'un échantillon est définit par Gosset dans un article de mars 
1908 par : 


Il est à noter que la découverte de l'écart-type est à mettre en relation avec le 
développement de la théorie de l'estimation et des tests d'hypothèses. D'autre 
part, l'étude de la variabilité fut étroitement liée aux travaux des astronomes, 
dans la mesure où ils étaient imtéressés par les découvertes relatives à la distri- 
bution des erreurs de leur observations. 

La variance et plus généralement l'analyse de variance telle que nous l'en- 
tendons et pratiquons de nos jours a été développée quant à elle principalement 
par R. À. Fisher (1918, 1925 et 1935). C'est, du reste, lui qui introduisit les 
termes de variance et d'analyse de variance. 

Parallèlement aux mesures de dispersion, se développent les mesures de 
formes des distributions. Ainsi, K. Pearson (1894-1895) a été le premier à tester 
les différences entre certaines distributions et La loi normale. 

Il a démontré que les écarts par rapport à la courbe normale peuvent étre 
caractérisés par les moments d'ordre 3 et 4 d’une distribution. 

Avant 1890, J. P. Gram et Thiele, au Danemark, ont développé une théorie 
sur la symétrie des courbes de fréquences. 

K. Pearson s'intéressa également à de grands ensembles de données qui 
s'éloignaient parfois considérablement de la normalité, présentant notamment 
une asyruétrie importante, 

Il utilisa tout d'abord comme mesure d’asymétrie, le coefficient suivant : 


ie. E — mod 
CSYITUÉÈTRE = ——, 
5 


où 7 représente la moyenne arithmétique et s l'écart-type. 
Puis il trouva la formule alternative suivante : 


_— GÛT — med 
ASYITÉTLE — NE= ne) 


Par la suite, K. Pearson (1894-1895) introduisit un coefficient d'asymétrie, 
connu sous le nom de coefficient 5,, basé sur le calcul des moments centrés. Ce 
coefficient est plus difficile à calculer, mais il est mieux adapté lorsque le nombre 
d'observations est grand. 

On doit aussi à K. Pearson le coefficient f, de Pearson qui sert à mesurer 
l'aplatissement d'une courbe. Ce coefficient est également fondé sur les moments 
de la distribution à étudier. 
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5.8 Exercices 


1. À partir des données numériques suivantes (identiques à celles de l'exercice 
1 du chapitre 4) : 


6 12 21 O0 6 9 15 3 


(a) Calculer x; et Dr, — F}° 

(b) Vérifier que {ri — #)? = Sr? — 85° 

(c) Calculer, de trois façons différentes, la variance de ces données. 
(d} Calculer l'écart-type. 


(e) En posant y; = ax; + b, vérifier que quels que soient a et 6 : 
d (WF) = &° ÿ (x -3) 


(f) Utilisant le résultat (e), calculer, d'une façon simple, l'écart-typée des 
y; suivants, sachant que à = L et b = 1900). 


2. Soit la série 62, 37, 85, 43, 23, 45 de moyenne u = 47,5, d'écart-type 
8 = 20,54. 


(a) Créer une nouvelle série en ajoutant 5 à chaque élément de la série 
initiale. Calculer la moyenne ainsi que la variance de cette nouvelle 
série ; quelle est la relation entre les moyennes, entre les écarts-types ? 


(b} Toujours en partant de la série initiale, multiplier chaque élément 
par 2 et ajouter 5. Calculer la moyenne ainsi que la variance de cette 
nouvelle série ; quelle est la relation entre les moyennes, entre les 
écarts-types ? 


Mettre en évidence les propriétée de la moyenne et de l'écart-type illustrées 
ci-dessus. 


3. La répartition des revenus des familles (ou plus exactement, des ménages) 
est un indicateur important de la concentration des revenus dans une 
nation. Le tableau suivant présente des statistiques à ce sujet pour le 
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Danemark et l'Australie : 


Danemark 1976 Australie 1966-67 
Revenu Nombre Revenu Nombre 
disponible de disponible de 
des ménages ménages des ménages IMÉNAGES 
(en millier (5 australiens} 
D. Kroner] 
10 - 30 520 700 - 1 000 59 
30 - 40 241 1 000 - 2 000 109 
40 - 50 263 2 000 - 3 000 161 
50 - 60 249 3 000 - 4 000 227 
60 - 70 264 4 000 - 5 000 166 
T0 - 80 263 5 000 - 6 000 113 
50 - 90 240 6 000 - 7 000 61 
90 - 100 190 T 000 - 8 000 35 
100 - 110 162 8 000 - 9 000 26 
110 - 120 99 8 000 - 10 000 9 
120 - 130 84 10 000 - 11 000 12 
130 - 140 57 11 000 - 12 O0 5 
140 - 150 37 12 000 - 20 Q00 17 
150 - 160 27 “ à 
160 - 270 67 - - 
Total 2 163 Total 1 000 


(a) Pour chaque pays, présenter un tableau fondé sur les indications 
qui précèdent et dont les titres des colonnes seront, dans l'ordre : 
“Revenu”, “Effectifs”, “Fréquences”, “Effectifs cumulés croissants”, 
“Effectifs cumulés décroissants”", “Fréquences cumulées croissantes”, 
“Fréquences cumulées décroissantes”. 


(b) Pour chaque pays séparément, présenter sur un même repère les 
courbes cumulatives croissantes et décroissantes correspondant à cette 
distribution. 


(c) Pour chaque pays séparément, présenter l'histogramme relatif à la 
distribution donnée. 


(d) Expliquer la raison principale pour laquelle la comparaison des deux 
histogrammes ne permet pas, à elle seule, de se prononcer sur le pays 
le plus égalitaire entre le Danemark et l'Australie. 


(e) Déterminer le mode, le revenu médian et le revenu moyen des mé- 
nages dans chaque pays. 


(f} Expliquer pourquoi dans chaque cas, le revenu médian est inférieur 
au TEVETIL TTOWVEE. 
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(g) Déterminer les quartiles 1 et 3 de chaque distribution {calcul et 
graphique). Caleuler l'intervalle interquartile pour chacun des deux 
pays. 


(h) Calculer l'écart moyen des deux distributions. 


{i) Calculer le coefficient de concentration de chaque distribution en di- 
visant l’écart-moven par le revenu moyen pour chaque pays. Cette 
quantité ne dépend plus des monnaies respectives pour chacun des 


pays. 


(j) À partir des résultats obtenus dans i}, que peut-on conclure sur le 
degré de concentration des revenus au Danemark et en Australie ? 


4. Dans deux classes de niveau équivalent d'une méme école, les notes (sur 
20}, obtenues par les élèves, à l’occasion d'une même épreuve, sont Les 
suivantes : 


Classe À 9 15 15 7 11 12 14 10 11 & 
S 1 11 14 8 10 11 11 10 11 

7 15 12 6 14 9 15 8 8 14 

15 10 11 13 11 11 15 12 15 10 


Classe BB 11 9 8 13 9 8 13 14 15 15 


3 
15 10 15 8 15 8 14 9 6 13 
12 11 9 9 13 14 8 13 8 


(a) Comparer, par des méthodes graphiques différentes, les deux séries 
statistiques proposées. 


{b} Comparer les deux séries à l’aide de leurs caractéristiques de tendance 
centrale, 


(c) Continuer la comparaison en utilisant les caractéristiques de disper- 
slOnL. 


(d} Conclusion 


5. La répartition des prix d'un magasin TV-vidéo est décrite dans le tableau 
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ci-dessous : 
Classes de prix Fréquences absolues 
0 - 500 14 
500 - 1 000 21 
1 O00 - 1 500 28 
1 500 - 2 000 31 
2 000 - 2 500 36 
2 300 - 3 000 25 
3 000 - 3 500 20 
3 500 - 4 OX) 19 
4 000 - 4 500 16 
4 500 - 5 000 12 


(a) Construire l'histogramme des fréquences. 
(b}) Calculer le prix moyen d'un article de ce magasin. 
{c) Calculer la variance, l'écart-type et l'écart moyen du prix des articles. 


(d} Construire sur le même repère les courbes cumulatives croissantes et 
décroissantes correspondant à la distribution. Déterminer La médiane 
à l'aide du graphe. 


(e) Calculer la médiane et les quartiles ainsi que l'écart médian ; en 
déduire l'intervalle interquartile. 


(f) En utilisant la courbe cumulative croissante, déterminer la proportion 
d'articles ayant un prix compris entre 2 500 et 3 000. 


{g) Vérifier que la valeur de la médiane med touvée à la question (e) 
est telle que la droite verticale X = med partage la surface de l'his- 
togramme en deux parties de surfaces égales. 


6. Variable qualitative multicatégonielle 


Couleur des cheveux 


Population Noir Brun Châtain Blond Roux Total 
À 54 31 18 4 1 106 
B 22 27 4 19 11 113 


Calculer la variance de la couleur des cheveux pour les deux populations 
et comparer les résultats. 


7. Le tableau ci-dessous donne les prévisions d'un météorologue pour 50 jours 
consécutifs : 


e« J indique que la prévision était juste. 
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«+ F indique que la prévision était fausse. 


Je 
ui eu 


F 


Cut Cu MT M La 
Cu Cu M] be M" 


Sn 4 à 


F 
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4j ti M di 
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HA ui CO y 


"] 
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{a} Définir la population et la variable étudiée. Préciser de quel type est 


cette dernière. 


(b}) Quel est le graphe le plus approprié pour représenter ces données, 


(c) Calculer la variance et l'écart type de cet échantillon. 


8. On dispose des données suivantes sur des prisonniers : 


Age au moment 


de la condamnation 


18 - 20 
20 - 25 
25 - 30 
30 - 35 
30 - 40 
40 - 45 
45 - 50 
50 - 60 
60 + 
Total 


Femmes 
Fréquences 
449 
2 005 
1 923 
1 337 
927 
114 
483 
549 
212 
8 590 


(a) Déterminer pour le tableau ci-dessus, les fréquences relatives ainsi 
que les fréquences cumulées. 


(b} Construire l'histogramme. 


{c) Déterminer l'âge moyen ainsi que l'âge médian au moment de la 


condamnation. 


{d) Nous disposons en plus des données suivantes, concernant les con- 


damnations du sexe masculin. 


D =24,3 OQ= 33,21 


Q3 = 39,27 


Peut-on affirmer que, au moment de leur condamnation, les femmes 


sont plus âgées que les hommes ? 
(e) Représenter graphiquement les fréquences cumulées, Expliquer. 


JOHN WILDER TUKEY 
(1915-) 


John Wilder Tukey est né à Bedford, 
Massachussetts, le 16 juin 1915. Il à 
étudié la chimie à l'Université de Brown 
puis a obtenu, en 1939, un doctorat en 
Mathématiques de l'Université de Prin- 
ceton. À l'âge de 35 ans, in devient pro- 
fesseur de Mathématiques dans cette 
même université. [l a dirigé le groupe de 
recherches en techniques statistiques de 
l’université de Princeton depuis sa for- 
_ mation, en 1956. I fut aussi nommé pre- 
mier directeur du département de statis- 
tique de l'Umiversité de Princeton, en 
1965. 
J.W. Tukey a ouvert la voie dans les 
domaines de “ l'analyse exploratoire des 
données ” et des estimations robustes. 
Ces contributions dans les domaines de 
l'analyse des séries chronologiques ainsi 
que dans l'analyse spéctrale ont été lar- 
gement utilisées dans les sciences 
appliquées. 
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Analyse exploratoire de 
données | 


L'analyse de données en général comprend deux étapes : l'étape exploratoire et 
l'étape confirmatoire. 

L'analyse exploratoire de données s'occupe d'isoler les traits et caractéristi- 
ques des données et de les révéler à l'analyste. Elle fournit souvent le premier 
contact avec les données, précédant tout choix de modèles pour des composants 
structurels ou stochastiques, et sert aussi à révéler des déviations des modèles 
familiers. 

L'analyse confirmatoire de données se concentre sur la reproductibilité des 
caractéristiques ou effets observés, Cette phase comprend également l'incorpora- 
tion d'information d'une analyse d'un autre ensemble de données proches et La 
validation d'un résultat par la collecte et l'analyse de nouvelles données. 

Dans l'analyse exploratoire de données, quatre thèmes principaux appa- 
raissent et se combinent. Ceux-ci sont les représentations graphiques, la ré- 
expression, les résidus et la résistance. Nous présentons en détail dans ce 
chapitre les représentations graphiques et la ré-expression des données, tandis 
que les thèmes de la résistance et des résidus ne seront que peu développés. 


109 


110 Chapitre 6 


6.1 Représentations graphiques 


Les représentations graphiques satisfont au besoin de l'analyste de voir le 
comportement des données, des ajustements, des mesures de diagnostic et des 
résidus et donc de saisir les caractéristiques inattendues ainsi que les régularités 
familières. 

Une contribution majeure dans les développements associés à l'analyse ex- 
ploratoire de données a été l'accentuation des représentations visuelles et la 
variété de nouvelles techniques graphiques. Deux de celles-ci sont le stem-and- 
leaf et le box plot. 


Stem-and-leaf 


Le diagramme stem-and-leaf est une forme de graphique de fréquences. L'idée 
de base est de fournir une information sur la distribution de fréquences, tout en 
retenant les valeurs mêmes des données. 

En eflet, stem, ou tige, correspond aux intervalles de classes, et leaf, ou 
feuille, correspond aux nombres d'observations dans la classe, représentées par 
les différentes données. On peut donc y lire directement les valeurs des données. 

Les stems correspondent à un certain nombre de chiffres significatifs au début 
de chaque donnée : leurs valeurs possibles sont présentées en colonne, de la 
plus faible à la plus élevée. Parmi les chiffres restant de chaque donnée, seul 
le premier est conservé et apparaît dans la représentation, sur la ligne dont 
l'entête est le stem correspondant. Ces chiffres sont les leaves : il y en a une 
par observation. Elles sont aussi classées par ordre de grandeur. 

Exemple 6.1 Le tableau 6.1 présente les indices des revenus des cantons de 
la Suisse par habitant (Suisse = 100) en 1993 : 


Tableau 6.1 : Indice des revenus des cantons 


Canton Indice Canton Indice 
Zurich 125,7  Schaffhouse 99,2 
Berne 86,23 Appenzell Rh.-Ext. 84,3 
Lucerne 87,9  Appenzell Rh.-Int. 12,6 
Uri 88,2 Saint-Gall 89,3 
Schwytz 94,5 Grisons 92,4 
Obrwald 80,3  Argovie 96,0 
Nidwald 108,9 Thurgovie 87,4 
Glaris 101,4 Tessin 87,4 
Zoug 170,2 Vaud 97,4 
Fribourg 00,9 Valais 80, 5 
Soleure 88,3 Neuchâtel 87,3 


Bâle-Ville 124,3 Gentve 116,0 
Bâle-Campagne 105,1 Jura 75,1 
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Pour construire un stem-and-leaf à partir de ces données, on commence par 
les classer par ordre de grandeur. Puis on choisit le stem : dans cet exemple, 
on prend les dizaines. Les leaves sont les unités (on arrondit chaque indice à 
l'unité la plus proche}. 

L'observation 170 sort de l'ensemble, elle est représentée à part. 

Quelquefois, la division entre stem et leaf ne semble pas satisfaisante. Ainsi, 
on peut avoir un stem-and-leaf avec trop peu de stems et par conséquent trop 
de leaves, mais si on met un chiffre de plus dans le stem, on aura trop de stems. 
Dans ces cas, la solution est d'utiliser deux stems pour chaque point de départ. 
Dans un tel stem-and-leaf, on utilise une ligne pour les leaves 0, 1, 2, 3, 4 et 
l'autre pour les leaves 5, 6, 7, 8, 9. 

Parfois cinq stems peuvent aussi étre un bon choix. 

Dans notre exemple, on obtient le stem-and-leaf suivant : 


unité = jÙ 
1|2 représente 12 


7135 

8 [014677783889 
ü 125789 

10 [159 

u |6 

12 | 46 

Hi | 170 


Exemple 6.2 On reprend le stem-and-leaf de l'exemple 6.1 et on remplace 
les stems 8 et 9 par deux stems de chaque. Ainsi, on obtient le stem-and-leaf 
suivant : 

unité = 10 
12 représente 12 


T 35 
8-|014 

8. [67778889 
Hs |12 

9. [5789 

10 | 159 

il ü 

12 |46 

HI | 170 


Le stem-and-leaf peut aussi être utilisé pour représenter des données non 
numériques. Ainsi, par exemple, on peut représenter l'information collectée sur 
l'année et la marque des voitures se trouvant dans un certain parking. Codons 
les marques de voiture comme suit : 
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Marque 
AlEa 
Audi 
EMW 
Citroën 
Ferrari 
Fiat 

Ford 
Honda 
Mercedes 


On aboutit alors à la classification stem-and-leaf suivante : 


Résumé à 5 valeurs 


Nom de code 


Fe 


M 


CH 
GE E Fou H F 
CFoFR 


CHHMMOOPPFRTTITVY 


Marque 
Mitsubishi 
Opel 
Peugeot 
Porsche 
Renault 
Saal 
Tovota 
Volkswagen 
Volvo 


ABHHOPTT V Vo 
FiHMMOPTTV 


AAFHMOOPPFREV Va 


À Fe H M M Mi Q Vo 
BE F°HHKHOR Vo 


H H Mi © 


Hom de code 


Mi 
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Le résumé à 5 valeurs {Tukew, 1977) est une façon de transmettre l'informa- 


tion essentielle dans une distribution : 


Médiane 
Troisième quartile 


Premier quartile 


Extrème inférieur Extrême supérieur 


Pour simplifier les calculs, on va utiliser une variante de la méthode de calcul 
des quartiles proposée au chapitre 5. 
Soit n le nombre d'observations et les données rangées par ordre croissant. 


On définit : 


rang médiane = {ni + 1)/2 
rang quartile — ([rang médiane] + 1)/2 


où |x] est la valeur de x tronquée 4 l'entier inférieur. 


La médiane et les quartiles seront les données correspondant aux rangs cal- 
culés, pour un ensemble de données classées par ordre croissant. Des rangs 
non-entiers signifient que l’on calculera la moyenne entre les deux valeurs les 


plus proches pour obtenir la médiane ou les quartiles. 
Dans son livre, Tukey appelle les 1% et 4° quartiles hinges. 
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Exemple 6.3 Si l'on reprend les données des indices des revenus des cantons 
par habitant de l’exemple 6.1, on peut calculer le résumé à 5 valeurs : 


rang médiane = (n +1)/2 = (26 +1)/2 = 14,5. 


Ainsi, la médiane sera la moyenne entre la 14° et la 14° observation, c'est-à- 
dire : 


médiane = (89,3 + 90,91)/2 = 90, 1. 
Ensuite, on calcule : 
rang quartile = (13 +1}/2= 7. 
Le 1% quartile sera la 7° observation depuis le bas, et le 3° quartile la 7° 
depuis le haut, c'est-à-dire : 
1" quartile = 87,4 
3° quartile = 101, 4. 


Les extrêmes inférieur et supérieur sont respectivement 72,6 et 170,2. 
Ainsi, on obtient le résumé à 5 valeurs suivant : 


90,1 


87,3 101,4 
12,6 170,2 


Box plot 


Le “bor-end-whisker" plot, ou box plat, à été introduit par Tukey en 1977. 
C'est un moyen de représenter graphiquement les valeurs du résumé à 5 valeurs 
défini ci-dessus. 

Le box plot montre le centre de l'ensemble des observations, du 1% au % 
quartile, à l’aide d'une boîte traversée par une ligne à la valeur de la médiane. 
Un trait continu relie chaque quartile à la valeur extrème correspondante. 

Dans cette représentation, Les valeurs aberrantes recoivent un traitement 
particulier. Ainsi, lorsque les observations sont très dispersées, on définit deux 
valeurs dites limites intérieures, données par : 


[: 


1 quartile —(1,5-10))} 
3° quartile +(1,5-10) 


1] 


LE 


où 
10 = intervalle interquartile. 


Dans la construction du box plot, qui devient alors un “schematic plot”, le 
trait pointillé relie les quartiles aux valeurs observées les plus proches de ces 
bornes, mais toutefois à l'intérieur de l'intervalle [a as]. 

Une attention particulière doit ensuite être portée aux valeurs se situant à 
l'extérieur de cette représentation. 
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Figure 6.1 : Box plot 


Sur la figure 6.1, on voit les différentes valeurs présentées ci-dessus : 


« le trait traversant la boîte représente la médiane ; 


« Le bord du bas de la boîte représente le l® et le bord du haut de la boîte 
représente représente le 4° quartile : 


« Le trait pointillé du bas relie le L quartile à l'observation égale ou juste 
supérieure à a, et le trait pointillé du haut relie le 3° quartile à l'observa- 
tion égale ou juste inférieure à ag : 


e les valeurs se situant au-delä de ces deux dernières observations sont 
représentées par des points. 


L'échelle du box plot est représentée à gauche sur la verticale. 
Exemple 6.4 On reprend l'exemple 6.1 des indices des revenus des cantons 
par habitant de la Suisse en 1993 et on construit le box plot correspondant. 


1Q = 101,4 — 87,3 — 14,1 
a = 87,9 — 1,5: 14,1= 87,3 — 21,15 = 66,15 
as = 101,4+ 1,5: 14,1 = 101,4+ 21,15 = 122,55. 


L'observation juste supérieure à 66,15 est 72,6, et celle juste inférieure à 
122,55 est 116,0. 


On a encore quelques observations supérieures à 122,55, qui sont 124,2, 125,7 
et 170,2. 


Finalement, on obtient, à la figure 6.2, le box plot suivant : 
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Figure 6.2 : Box plot des indices 


6.2 Ré-expression 


La ré-expression implique la question de savoir quelle échelle aiderait à simpli- 
fier l'analyse des données. L'analyse exploratoire de données souligne les avan- 
tages de considérer, assez tôt, l'échelle dans laquelle les données devront être 
exprimées. Une ré-expression des données dans une échelle autre que l'originale 
peut aider à promouvoir la symétrie, la constance de variabilité, etc. 

Les ré-expressions le plus souvent utilisées dans l'analyse exploratoire de 
données viennent des familles de fonctions puissance y = y? (presque toujours 
avec une valeur simple de p telle que À, —1, ou 2) et logarithmique. L'idée de 
base de Tukey est simple : si la façon dont les chiffres sont rassemblés ne Les rend 
que difficilement analysables, il faut les changer en une forme plus facilement 
analysable, en préservant autant d'informations que possible. 

On distingue quatre sortes de données : 


« quantités et dénombrements : ils ne peuvent jamais être négatifs et peu- 
vent être arbitrairement grands. Les hauteurs, puissances, surfaces, dis- 
tances, nombre de morts ou de personnes tombent dans cette catégorie. 
L'indicateur le plus simple pour déterminer si la ré-expression est suscep- 
tible de nous aider est Le ratio de la plus grande valeur sur la plus petite 
valeur. Si ce ratio est petit, voisin à 1, la ré-expression ne peut pas changer 
sensiblement l'apparence des données. S'il est grand, disons 100 ou plus, 
la ré-expression sera presque sûrement nécessaire ; 


«+ balances : (valeurs positives et négatives). Perte et profit est un exem- 
ple. Cette sorte de données est souvent issue de la différence entre deux 
quantités ou dénombrements. La ré-expression de la balance aide peu 
souvent, mais la ré-expression des quantités ou dénombrements avant la 
soustraction aide beaucoup ; 
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« fractions et pourcentages : la ré-expression est souvent très utile, mais les 
techniques sont spéciales et ne sont pas traitées dans ce chapitre ; 


° notes et autres versions ordonnées - y compris À, B, CG... E et -, +, ++... 
La ré-expression de celles-ci nécessite des techniques plus complexes qui 
ne sont pas traitées dans ce chapitre. 


Logarithmes 


Exemple 6.5 Le revenu cantonal des cantons de La Suisse en 1993 (en millions 
de francs) est présenté dans le tableau 6.2 : 


Tableau 6.2 : Revenus cantonaux 


Canton Huvei 
Æurich A4 658 
Berne 36 400 
Lucerne 12 852 
Uri L FAT 
Schwytz A 548 
Crwald l 043 
Hidwulad 1 636 
Glaris 1728 
ÉCLE G oEH 
Fribourg 8 727 
Soleure 3 051 
Bale Ville 10 804 
Bäle-Campagonr 10 688 


Canton 

ce hahouse 
Appenzell Rh.-Ext. 
Appensell Rh.-[nt. 
Saint-Call 

Grisons 

Areovir 

Thurgovie 

Tessin 

Vaud 

Valnin 

Meuchätel 

Genus 

Juris 


SULSeC 


Revenu 
3 169 
1 477 

454 
17 13 
T 481 

23 063 
a Hi 
11 240 

23 837 
9 390 
& 267 
19 714 
2 305 


+05 440 


D'abord on construit le stem-and-leaf habituel, en prenant comme stems, 
les milliers et comme leaves, les centaines, qu'on arrondit à la centaine la plus 


proche. 


unité = 10 
1/2 représente 1 300 


D1367 
Ù 3 


D GO 3 OO On = C9 


HI | 17 000, 18 700, 22 100, 25 800, 36 400, 64 700 


On décide d'utiliser la ré-expression pour rendre le stem-and-leaf plus lisi- 
ble. On calcule les logarithmes à deux décimales et on obtient le stem-and-leaf 


suivant : 
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unité = | 
113 représente 1, 20 


i 


BD 52 84 
O1 O4 GG 97 
03 O4 O5 


81 


Une autre manière de le représenter serait : 


unité = À, 1 
1210 représente 1, 30 


04 
| 


0 4 
0 4 


Racines carrées et inverses négatifs 


Un autre moyen de rendre les distributions symétriques est de calculer les racines 
carrées ou les inverses négatifs. On utilise les inverses négatifs plutôt que les 
inverses car ces derniers permettent de conserver l'ordre. 


Exemple 6.6 On représente quelques nombres avec leurs inverses et inverses 
négatifs pour se rendre compte de la conservation ou non de l’ordre : 
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nombres d 2 3> 2 
inversés 1/3 1 2 1/3 < 1/2 
inverses négatifs | —1/3 —1/2 —1/3 > —-1/2 


Souvent, il est conseillé de travailler avec -1 000 /nombre. 


Dans ces trois sortes de ré-expressions (logarithmes, racines carrées et in- 
verses négatifs}, l'ordre est conservé. La conservation de l’ordre conserve néces- 
sairement les rangs. Ainsi, la médiane, Les quartiles et les extrémes des valeurs 
logarithmisées sont les logarithmes des résumés correspondants (et de même 
pour les racines carrées et les inverses négatifs). 


Exemple 6.7 Si on reprend les stem-and-leaf du revenu cantonal des cantons 
de la Suisse de l'exemple 6.5, on peut calculer le résumé à 5 valeurs : 


rang médiane = {n + 1)/2 = (26 + 1}/2 = 13, 5. 


Ainsi, la médiane sera la movenne entre La 13° et la 14° observation, c'est-à- 
dire : 


médiane = ($ 200 + 8 700)/2 = 8 450. 
Ensuite, on calcule : 
rang quartile = (13 + 1)/2 = 7. 


Le 1“ quartile sera la 7° observation depuis Le bas, et le 3° quartile la T° 
depuis le haut, c'est-à-dire : 


1°" quartile = 2 AW 
3° quartile = 12 900 


et 


extrème inférieur = 1 (00 
extrème supérieur = 65 000. 


Ainsi, on obtient le résumé à 5 valeurs suivant : 


8 450 
2200 12 900 


1000 65 000 


Si on travaille sur les valeurs logarithmiques : 
médiane = (3,91 + 3,94)/2 = 3,925 


et 
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1" quartile = 3,34 
+ quartile = 4, 11 


GT 


extrème inférieur = 4,{(N] 
extrême supérieur = 4,81. 


Ainsi, on obtient le résumé à 5 valeurs suivant : 


Effectivement, on observe que : 
log(8 450} = 3,927 © 3,925 
et 


log? 200) = 3,34 
log(12 900) = 4, 11 


log(1 000) = 3, 00 
Log(65 000) = 4, 81. 


Ré-expressions triviales et relation entre puissances et logarithmes 


Le changement de chiffres en les multipliant ou en les divisant tous par la même 
constante ne change rien à leur analyse. Un tel changement revient à transformer 
des pieds en pouces ou mètres. On parle dès lors de ré-expressions triviales, 
tant au niveau de l'analyse qu'au niveau des effets sur les réponses. 


Les puissances les plus utilisées sont : 

« racinés carrées (puissance 1/2) ; 

e inverses (puissance —1) : 

« inverses des racines carrées (puissance —1/21. 


On s'aperçoit qu'il manque la puissance 0. 

Le rôle de la puissance Ù est rempli, pour la ré-expression, par le logarithme. 

Ainsi, déplacer l'échelle, soit de x à #° à r%, soit de —1/x* à —1/x à log =. 
correspond à accentuer Les différences entre les plus grands x en comparaison 
avec les différences entre les plus petits x. 


On utilise souvent la ré-expression pour comparer deux ensembles de don- 
nées. 


120 Chapitre 6 


6.3 Résistance 


La résistance est une question d'insensibilité au mauvais comportement des 
données. Plus formellement, une analyse ou un résumé est résistant si un 
changement arbitraire dans n'importe quelle partie des données produit un petit 
changement dans l'analyse ou le résumé. Cette attention à La résistance reflète le 
fait que de “bonnes” données ne contiennent que rarement moins de 5% d'erreurs 
grossières, et une protection contre les effets adverses de celles-ci devrait toujours 
étre disponible. - 


En quelques mots, la resistant line de Tukey donne un ajustement robuste 
d'un nuage de points, ce qui veut dire que cette droite ne se laisse pas trop 
influencer par une observation particulière. 

Toutefois, dans ce chapitre, on ne parlera que de la résistance dans le cas de 


l'analyse unidimensionnelle de données, 


La médiane est hautement résistante alors que la moyenne ne l'est pas. Pour 
comprendre ceci, on va examiner un exemple très simple. 


Exemple 6.8 Supposons les nombres suivants : 3,4,7,7,11,11. 
On calcule tout d'abord la moyenne de ces nombres : 


L g+s+7+7enn 
n 6 E 


Ensuite, on calcule la médiane : 


7. 


rang médiane = {n + 1)/2 = {6 +1)/2 = 3,5 
médiane = {7+7)/2= 7. 


On constate que dans ce cas, la moyenne et la médiane valent 7, 

Supposons maintenant qu'on ajoute un nombre : on ajoute —1 000. On va re- 
calculer la moyenne et la médiane des nombres suivants : —1 000,4,3,7,7,11,11. 
La moyenne est : 


D # 
1 —1 000+3+3+7+7+11+11 = 1368571. 


l Fi 


On voit qu'en ajoutant un seul nombre, la moyenne a varié sensiblement. 
La médiane est : 


rang médiane = (n + 1)/2 = (7 +1)/2 = 4 
médiane = 7. 


É — 


Contrairement à la moyenne, la médiane n'a pas changé, ce qui nous per- 
met d'affirmer que la médiane est plus résistante aux valeurs extrêmes que la 
MOFENTLE, 


Analyse exploratoire des données 121 


6.4 Résidus 


Les résidus sont ce qui reste des données après qu'un résumé ou un modèle 
ajusté ait été soustrait, conformément à l'équation schématique : 


résidus = donnèes — ajustement. 


Par exemple, si les données sont les paires (x,,;) et l’a Justement est La droite 


U,— a + bx; (voir chapitre 15), alors Les résidus sont €; = y — ÿ. 

La présence de résidus inhabituels suggère le besoin de vérifier les circons- 
tances relatives à ces observations. De façon plus traditionnelle, les résidus 
peuvent signaler des difficultés systématiques avec les données. 

Comme dans le point précédent, on va se limiter au cas de l'analyse unidi- 
mensionnelle de données. 


Exemple 6.9 Le PNB/habitant en 1993 des quinze pays de la Communauté 
européenne (en dollars) est présenté dans le tableau 6.4. 


Tableau 6.3 : PNB/habitant en dollars 


Pays PNB/habitant Pays  PNB/habitant 
Allemagne 23 560 Irlande 12 580 
Autriche 23 120 Italie 19 620 
Belgique 21 210 Luxembourg 30 890 
Danemark 26 510 Pays-Bas 20 710 
Espagne 13 650 Portugal 7 890 
Finlande 15 970 Royaume-Uni 17 970 
France 22 360 Suède 24 830 
Grèce T 390 


Source : OCDE 1995) 
On calcule le résumé à 5 valeurs : 
rang médiane = {ni + 1)/2 = (15 +1)/2 = 8 
Ainsi, la médiane correspond à La 8° observation, c'est-à-dire : 
médiane = 20 710 (Pays-Bas). 
Ensuite, on calcule : 
rang quartile = (8 + 1}/2= 4,5 


Le quartile inférieur sera la moyenne entre la 4° et la 5° observation depuis 
le bas, et le quartile supérieur la moyenne entre la 4° et la 5° depuis le haut, 
c'est-à-dire : 
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1° quartile = (13 650 + 17 970)/2 = 15 810 (Espagne, Royaume-Uni} 
3° quartile = (23 120 + 23 560)/2 = 23 340 (Autriche, Allemagne) 

at 


extrème inférieur = 7 490 (Grèce) 
extréme supérieur = 35 850 (Luxembourg). 


Ainsi, on obtient le résumé à 5 valeurs suivant : 


20 710 
15 810 23 340 


T 390 45 SH 


On définit : 
résidu = valeur donnée — valeur du résumé 


Ainsi, selon Tukey, on peut changer chaque valeur donnée en un résidu, en 
utilisant par exemple la médiane comme valeur du résumé. 


Résidus à partir de la médiane : 
—13 320, —12 820, —8 130, —7 060, —2 740, —1 740, —1 090, O0, 500, 1 650, 
2 410, 2 850, 4 120, 5 800, 15 140. 
On peut construire un stem-and-leaf et un résumé à 5 valeurs à partir des 
résidus : 
unité = 10 000 
1!2 représente 12 000 


-1133 
—0 [87 
-0 | 321 
01012234 
016 
1 
1 


at 


(1) 
—4 900 2 630 


—13 320 15 140 


Les résidus sont utiles pour rassembler de l'information sur plusieurs ensem- 
bles de données, mais aussi pour d'autres raisons : 
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« clé à l'amélioration pas par pas de nos analyses : 
« clé à l'adéquation de notre analyse courante. 


Une utilisation de la notion de résidus sert au calcul de l'estimation de la 
movenne, Pour cela, on suppose : 


résidu = valeur donnée — moyenne 
qu'on peut récrire sous la forme de : 
valeur donnée = moyenne + résidu 
CL 
A 
Yi = H +éi 


où fi est l'estimation de la moyenne et r; le résidu correspondant à chaque valeur 


ÿi par tapport & hi 
On pose : 


Si on cherche à minimiser cette fonction, on obtient : 


ee n 
2 2 (yi— u) = 0 
du = 
d'où 
(ui à) = 0 
Re 
Lh-nu=0 
+ | 
2% 
Hi — 
LEA 


Ainsi, on a retrouvé La défimtion de la moyenne, 

En conclusion, on présentera un exemple qui permettra de récapituler cer- 
tains éléments introduits dans ce chapitre, On considère des données récoltées 
en octobre 1994 sur les films projetés à La télévision pendant 10 mois de l'année 
1994. 


e Population : 41 semaines (janvier - octobre 94) de programmes TV sur 
6 chaînes (TSR, TF1, F2, F3, M6, ARTE). 


s Variables : chaîne, jour de la semaine, durée du film, pays, année du film, 
geure du film (film, téléfilm, court-métrage). 
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e Échantillon aléatoire simple : 10 semaines parmi les 41. 
« Observations : valeurs prises par ces variables sur l'échantillon. 


(in va s'intéresser de plus près à certains des résultats obtenus. 


Exemple 6.10 Tout d'abord, on analyse la durée des films à la TV. Pour 
cela, on considère les films et téléfilms, mais non les court-métrages, et on ne 
considère que les films et téléfilms dont on connaît la durée. 

Ainsi on obtient le stem-and-leaf suivant : 
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On peut aussi calculer le résumé à 5 valeurs et dessiner le box-plot (Figure 
6.3). 
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100 
90 115 | 
30 270 Figure 6.3 : Box plot des durées des films 


Ensuite, on calcule les résidus par rapport à la médiane, et on obtient le 
stem-and-leaf et Le résumé à 5 valeurs suivants : 


N = 511 
unité = 10 
Là représente 12 
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Exemple 6.11 Intéressons-nous maintenant à la répartition des films, télé- 
films et court-métrages par année. Pour cela, on ne considère que les films, 
téléfilms et court-métrages dont on connaît l'année. 

On construit d'abord le stem-and-lsaf : 

N = 271 
unité = lÙ 
1|2 représente 12 
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On peut aussi calculer le résumé à 5 valeurs : 
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Et le box plot (Figure 6.4) : 


Figure 6.4 : Box plot des années des films 


Pour finir, on calcule les résidus par rapport à La médiane, et on obtient le 
stem-and-leaf et le résumé à 5 valeurs suivants : 


N = 271 
unité = l1Ù 
1/2 représente 13 
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6.5 Historique 


Depuis à peu près 1970, l'analyse exploratoire de données signifie l'attitude, 
l'approche et les techniques développées, principalement par John W. Tukey, 
pour examiner les données avant d'utiliser un modèle probabiliste. 

Selon Tukey, l'analvse exploratoire de données est un travail de détective, un 
travail à la fois numérique et graphique, car de la même manière qu'un détective 
investigant un crime a besoin à la fois d'outils et de compréhension, un analyste 
de données a besoin à la fois d'outils et de compréhension. 

Le “box-and whisker plot” ou box plot, a été introduit par Tukey en 1972, 
parallèlement à d'autres méthodes de représentation semi-graphiques de données 
dont une des plus connues est le diagramme “stem and leaf”, 

L'origine de ce diagramme (“stem and leaf” } est associé à Tukey (1977). Le 
concept est basé sur l'histogramme qui date déjà du 18° siècle. 


6.6 Exercices 


1. Le tableau ci-dessous donne le nombre de spectateurs que peuvent ac- 
cueuillir les stades des grandes équipes anglaises de football ainsi que le 
stade national (Wembley) : 


Equipe Places Equipe Places 


National Stadium 78 800 Blackburn Rovers 31 467 
Manchester UTD 55 400 Nottingham Forest 40 602 
Liverpool 45 000 Wimbledon 26 309 
Sunderland 41 600 Crystal Palace 26 309 
Leeds UTD 40 204 West Ham UTD 26 Q14 
Everton 40 200 Bolton Wanderers 25 000 
Shefhield Wednesday 439 814 Coventry City 23 500 
Aston villa 39 339 Leicester City 23 517 
Arsenal 38 500  Watford FC 22 011 
Newcastle UTD 36 610 Barnsley FC 19 073 
Tottenham Hotspur 36 214 Bradford City FC 18 018 
Middlesbrough 35 000 Charlton Athletic 15 222 
Derby County 4 000 Southampton 15 000 
Chelsea 31 791 


(a) Construire le diagramme du nombre de place dans les stades. 

{b} Déterminer la médiane et l'intervalle interquartile de cette distribu- 
tion. Commenter. 

{c) Calculer le résumé à 5 valeurs et tracer le box plot correspondant aux 
données. 
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2. En utilisant les données des deux distributions du tableau ci-dessous : 


(a) Déterminer La médiane, le quartile inférieur et le quartile supérieur. 
{b}) Construire le box plot correspondant. 


{c) Commenter la forme des deux distributions. 


Cantons Excédent naturel de la Population active 
population résidanté en 1964 en 1980 
Surich 11 620 82 SÛG 
Bern 661 4435 154 
Lucerne as 137 518 
Uri 19 14 224 
Schrwyts 127 45 555 
Oswald 22 11 774 
Nidwale 11 13 648 
Glaris LE | 1# 42 
ÉIE us 36 967 
Fribourg 152 #2 066 
Soleure au 107 424 
Bäle-Wille +17 102 273 
Bâle- Campagne 291 109 116 
Schaffhouse 10 HA UE 
Appenscll Rh.-Ext. 54 21 914 
Appensell Rh.-lnt. 15 G LAT 
Saint-Call 54€ 183 064 
Grisons LA 80 (M2 
Argcvie Tia as TU 
Thurgovie A0 S& TU] 
Tessin 55 114 858 
Vaud 796 264 993 
Valais 244 7 54] 
NeuchAte] 181 11 306 
Genève 874 178 580 
Jura #3 25 4238 


Source : Office fédéral de lo statistique 


3. On reprend les données de l'exercice 2. On propose quatre transformations 
en vue de symétriser la distribution concernant l'excédent naturel de La 
population résidante : 


x In{x) 100 + 2r l/x 


(a) Construire les box plots des données transformées. 


(b} Commenter les transformations proposées. 


4. Nous disposons des salaires annuels en milliers de Fr. de l'entreprise BDM 
(SA) en 1992. Les données sont les suivantes : 
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22 29 29 29 30 932 4 3H 4 49 50 
91 O1 51 92 52 52 4 


(a) Construire le résumé à 5 valeurs ainsi que Le box plot relatifs aux 
données ci-dessus. 
(b} Calculer le salaire médian. 


{c) L'entreprise BDM SA prépare la grille des salaires pour 1993. Elle a 
le choix entre : 


- accorder une augmentation de salaire annuelle de 2 000 Fr. 
à tous les employés ; 


- augmenter les salaires de tous les employés de 59%. 


Reconstruire les box plots relatifs aux deux choix et commenter. 


5. Dans le but de faire une étude sur le rendement d'un groupe d'actions, 
une banque nous fournit la liste de 35 titres cotés à la bourse de Paris. 
Pour chaque action, nous disposons de la valeur en FF, à la clôture de la 
séance du mardi 3 août 1999, et de la valeur à la clôture du mercerdi 4 
août 1999. Les 35 titres sont présentés dans le tableau ci-desous. 


(a) Dessiner le box plot des rendements 


(rendement = (Vali.08.99 — Vals,08.99)/Vals.08.60) 


en % de ces 35 titres. Commenter. 


{b} Nous disposons, en plus des 450 actions précédentes, des 3 nouveaux 
titres suivants : 


Valeur à la Valeur à la 
Titres clôt. 408.99 clôt, 4.08.99 


FF FF 
Total Fina 118,00 121,90 
Valéo 12,50 74,95 
Vivendi T3,10 12,10 


Avec les 38 titres, dessiner le box plot des 38 rendements en %. 
Comparer les deux box plots représentés en (a) et (h). 


(c) Avec 1 000 FF à disposition, quel titre auriez-vous dû choisir le 
3.08.99 pour maximiser votre profit ? 
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JAKOB BERNOULLI 
(1654 - 1705) 


Premier de la lignée de trois générations 
de grand mathématiciens d'une même 
famille suisse, Bernoulli, Jakob était le 
fils de Niklaus, commerçant à Bâle. Il 
débuta par des études de théologie, 
voyagea six ans en Angleterre, en France 
et en Hollande, et à son retour à Bâle 
enseigna la physique à l'Université 
jusqu'à sa nomination comme professeur 
de Mathématiques en 1687. 


Il s'intéressa tout au long de sa vie à la 
théorie des probabilités. Son œuvre 
principale “ Ars conjectandi ” fut publiée 
à Bâle en 1713, huit ans après sa mort. 
Cet ouvrage contient une démonstration 
| rigoureuse de la loi des moyennes : si 
| une pièce de monnaie est lancée un grand 
nombre de fois, le pourcentage des cas 
où elle tombe sur pile est proche de 50 
pour-cent, et ceci avec une très grande 
probabilité. 


Probabilité 


Où donc, alors, la vérité ? Monde constant ou inconstant, deci, delà, on t'a perdu en 
faux espoirs et faux semblants. 


Parle de musicien et de vin ; ne cherche pas à pénétrer les secrets de l'umvers. Nul 
n'à Jamais résolu cette énigme par la philosophie nul ne la résoudra jamais. 


HAFTZ SHIRAZT, poète persan (1348-1398). 
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Probabilités 


La théorie des probabilités joue un rôle fondamental en statistique. La collecte 
de données statistiques et les enquêtes par sondage dépendent étroitement de 
la théorie des probabilités. Cette théorie nous permet d'établir le nombre et 
le choix des éléments d'un échantillon représentatif et de calculer les marges 
d'erreur, En connaissant la structure de la population considérée, on peut en 
déduire la structure souhaitable de l'échantillon. 

Le rôle de la théorie des probabilités s'étend aussi à l'analyse statistique. 
Quand les données sont disponibles, on utilise la théorie des probabilités pour 
forrouler un modèle mathématique décrivant le phénomène en question. Le mo- 
dèle mathématique sert ensuite à établir des prévisions basées sur les inférences 
statistiques. L'incertitude liée 4 l'approximation du modèle est prise en compte 
par la probabilité. 

Ce chapitre propose au lecteur de survoler les notions de probabilités et 
d'expérience aléatoire, les règles de probabilités ainsi que l'analyse combinatoire. 
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7.1 Interprétation de la probabilité 


La probabilité intervient dans notre vie de tous les jours. En effet, nous prenons 
régulièrement des décisions sans remarquer que derrière elles se cachent des 
probabilités et des incertitudes. En nous rendant à notre lieu de travail, même 
si l'on connaît parfaitement la route, nous pouvons nous trouver confrontés à 
des obstacles que nous n'avions pas envisagés. Quelle chance avons-nous alors 
d'arriver à l'heure prévue ? De même, quelle chance a une personne au chômage 
de retrouver du travail ? Ou encore, quelles sont les chances qu'il fasse beau ou 
qu'il pleuve demain ? 

Dans tous ces cas, nous ne pouvons prévoir avec certitude le résultat. Mais 
nous devons malgré tout prendre des décisions. En effet, d'une façon ou d'une 
autre, le commerçant doit décider quelle quantité de telle ou telle marchandise 
est à commander pour pouvoir satisfaire la demande de ses clients jusqu'au 
prochain achat. Mais le commerçant ne peut pas prédire avec certitude quelle 
sera la demande effective de sa clientèle, Il devra prendre une décision de com- 
mande sans en connaître avec certitude le résultat. 

La théorie des probabilités nous permet aussi d'établir des plans d'expérien- 
ce pour effectuer un choix entre différents traitements possibles de l'expérience. 
Une firme pharmaceutique teste des centaines de formules de médicaments afin 
d'en trouver une qui se révèle finalement supérieure au remède habituellement 
administré contre la maladie en question. On sait que les gens réagissent dif- 
féremment à la prise de médicament, tout comme d'ailleurs les animaux qui 
subissent une série de tests visant à valider la performance des nouvelles for- 
mules. Ces réactions variables introduisent une dimension probabiliste dans le 
plan d'expérience. Il faut conduire l'expérience de telle façon qu'à chaque étape 
la probabilité d'écarter les médicaments efficaces soit faible, tout en assurant 
une forte probabilité d'écarter à l'étape suivante les médicaments ineflicaces. 

On a vu dans les exemples ci-dessus que la notion de probabilité intervient 
lorsque nous sommes dans des situations d'incertitude, Mais on peut se de- 
mander si la notion de probabilité s'applique aussi dans d'autres circonstances 
comme : qui a vraiment écrit Hamlet ? Shakespeare ou Byron ? Les règles 
qui gouvernent les probabilités - bases axiomatiques des probabilités - ainsi que 
leurs conséquences mathématiques sont bien connues et ne suscitent ni contro- 
verse ni interrogation. En revanche, il y a beaucoup de discussions quant à 
l'interprétation de la notion même de probabilité. Pour les uns, cette notion 
est une notion subjective, alors que pour d’autres, la probabilité est une notion 
objective découlant de l'expérience, Dans le premier cas, l'homme attribue aux 
événements un certain degré de confiance. Par exemple, si on lance une pièce 
de monnaie une seule fois, la probabilité d'obtenir pile ou face est 1/2. Il s'agit 
d'une conviction personnelle puisant ses fondements logiques dans la symétrie 
de la pièce. Dans le deuxième cas, l'interprétation est basée sur le fait que si on 
lance une pièce de monnaie un grand nombre de fois, on observe que la fréquence 
relative des cas où on obtient pile varie de facon relativement régulière autour de 
1/2. D'où l'idée que la probabilité est une réalité objective dont la connaissance 
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peut étre approchée grâce à des expériences relatives aux fréquences pour une 
suite infinie d'épreuves. 

Pour un tenant de l'approche “subjective”, il est légitime d'attribuer des 
probabilités, par exemple, aux questions posées concernant l'auteur véritable 
d'Hamlet. En revanche, celui qui se réfère à l'approche “objective” ne se pose 
pas ce genre de question mais considère plutôt que la notion de probabilité 
s'applique aux événements qui se répètent ou sont susceptibles de se répéter. 


7.2 Expérience aléatoire 


Dans le langage courant, nous utilisons les termes “probabilité”, “probablement” 
sans y accorder de sigmification particulière, En statistique, en revanche, le 
mot “probalulité” est un terme technique qui est défini et utilisé dans un sens 
précis en liaison avec des événements et des expériences qui entraïnent une 
part de chance. Une expérience est une opération conduite sous des conditions 
contrôlées en vue de découvrir un effet ou une loi inconnue, de tester ou d'établir 
une hypothèse, ou encore d'illustrer une loi connue. En principe, l'issue précise 
d'une expérience n'est pas connue d'avance avec certitude. On dit qu'il s'agit 
d'une expérience aléatoire. 

Nous allons utiliser deux exemples simples d'expérience aléatoire qui intro- 
duisent facilement la notion de probabilité : 


- le lancement d'une pièce de monnaie ; 
- le jet d'un dé. 


Nous pouvons caractériser ces deux expériences par les faits suivants : (n) 
nous ne pouvons pas prédire avec certitude le résultat, mais (b} nous pouvons 
décrire, avant le déroulement de l'expérience, l'ensemble de tous les résultats 
possibles. 

Ces deux caractéristiques définissent la notion d'expérience aléatoire. 
Quand on lance une pièce de monnaie, nous pouvons dire avec certitude que 
les résultats possibles seront pile ou face sans pour autant savoir quel sera le 
véritable résultat. De même lors du lancement d'un dé, les résultats possibles 
peuvent être énumérés a priori : 1, 2, 3, 4, 5 et 6, sans avoir connaissance du 
résultat Gnal. 


«+ Ensemble fondamental d'une expérience aléatoire 


L'ensemble fondamental d'une expérience aléatoire est l'ensemble de tous Les 
résultats possibles de l'expérience. L'ensemble fondamental est généralement 
dénoté par f. 

Un ensèmble fondamental peut étre fini, infini dénombrable, ou infini non 
dénombrable, Si tous les résultats possibles de l'expérience sont dénombrables 
sur un domaine fini, nous parlons d'un ensemble fondamental fini ; dans 
l'exemple du lancement d'un dé, l'ensemble fondamental est fini ; les résultats 
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possibles de l'expérience sont dénombrables et se situent dans le domaine allant 
de 1 à 6 : 


N = {1,2,3,4,5,6}. 


Considérons l'expérience suivante : on lance une pièce de monnaie non 
truquée autant de fois qu'il est nécessaire pour obtenir face, Si on indique 
le résultat face par F et pile par P, l'ensemble fondamental sera le suivant : 


Q= {F,PF, PPF, PPPF, PPPPF, …, PPP..PF, 


Un premier F indique qu'au premier lancement on a obtenu face ; la séquence 
PF indique qu'on a obtenu face qu'au deuxième lancement ; PPF vient dire que 
F est obtenue qu'au troisième lancement et ainsi de suite. 

Dans cette expérience, le nombre de résultats possibles est donc infini mais 
dénombrable. Ceci signifie que l'on peut associer à chaque résultat possible 
un nombre entier naturel de telle sorte que chacun d'entre eux ait un nombre 
différent, Nous appelons un tel ensemble un ensemble infini dénombrable. 

En revanche, si le nombre de résultats possibles d'une expérience forme un 
ensemble infini non-associable aux entiers naturels, il n'est plus possible de 
dénombrer tous les éléments de l'ensemble, Dans un tel cas, nous sommes en 
présence d'un ensemblé infini non dénombrable, ou d'un ensemble infini 
continu. Un exemple pourrait être les valeurs possibles de la vitesse du vent 
relevées dans les observatoires du pays. 


+ Événement d'une expérience aléatoire 


Le résultat d'une expérience, c'est-à-dire d'une combinaison de résultats pos- 
sibles, constitue un événement, Mathématiquement, un événement est un 
sous-ensemble de l'ensemble fondamental. Si nous considérons l'expérience qui 
consiste à lancer successivement deux dés, l'ensemble fondamental est formé de 
tous les couples de résultats possibles pour les deux dés ; nous dénombrons par 
conséquent 36 éléments : 


= {(1,1),(1,2),(,3),...,(2,1),(2,2)...(6,5),(6,6)}. 
En fonction de cet ensemble fondamental, nous pouvons par exemple décrire 
les événements suivants : 
- la somme des points est égal à six : 
À = {(1,5)(2,4), (3,3), (4,2), (5, 1)} ;: 


- la somme des points est paire : 


B = {(1,1)(1,3),(1,5),(2,2),(2,4),(2,6),...,(6,2), (6,4), (6,6)} : 


- la somme des points est inférieure à six : 
C= {(,1)(1,2), (1,9), (1,4), (2, 2), (2,2), (2,3), (8, 2), (3,2). (4,1)} ; 
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- la somme des points est paire et inférieure à six : 
D = {(1,1), (1,3), (2,2),(3,1}} = BNC. 


- Événements particuliers 


Toute expérience aléatoire comprend un événement certain et un événement 
impossible. L'événement impossible est représenté par @, le sous-ensemble qui 
ne contient pas d'éléments. Dans le cas du lancement d'un dé, l'événement 
impossible pourrait être décrit par : 


À = “le nombre de points est supérieur à 7° 
À = à. 


L'événement certain est représenté par l’ensemble fondamental lui-même (, 
le sous-ensemble qui contient tous les éléments. ©? est l'événement certain dans 
le sens que le résultat d'une expérience doit être par définition parmi les résul- 
tats possibles de l'expérience. Se référant à l'exemple de lancement d'un dé, 
l'événement certain pourrait être décrit par : 


B = “le nombre de points est inférieur à 7° 
B = {1, 2, 3, 4, 5,6} 
B = (1. 


On appelle événement simple tout événement qui ne contient qu'un seul 
résultat. Par exemple : 


C' = “le nombre de points est divisible par 5” 
C= {5}. 


+ Opérations sur les événements 

Considérons l'expérience aléatoire qui consiste 4 jeter un dé. 
Négation 
Soient À et À deux événements : 


À = “obtenir un nombre de points pair” 
À = “ne pas obtenir un nombre de points pair”, 


Les deux sous-ensembles de ( correspondant sont les suivants : 


À = {2,4,6} 
À = {1,3,5}. 


Nous remarquons que La définition de À est obtenue par négation de celle de 
À. À est appelé événement contraire à l'événement À, ou complémentaire de À 
par rapport à (1. À est donc l'événement qui se réalise lorsque À ne se réalise 


pas. 
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Conjonction 


Soient F et C deux événements : 


B = “obtenir un chiffre inférieur à six” 
= {1,2,3,4,5}. 

€ = “obtenir un chiffre impair” 
= {1,3,5}. 


L'événement combiné D = “obtenir un chiffre impair et inférieur à six” est 
représenté par l'intersection entre B et C: 


D=BNnC= {13,5} 


L'événement “B et C” est appelé conjonction de l'événement B et de l'événe- 
ment €’. [l est réalisé lorsque B et C' sont réalisés simultanément. 


Disjonction 


Soient E et F deux événements : 


E = “obtenir un chiffre plus petit que 4” 
= {1,2} 

F = “obtenir un multiple de 4° 
= {3,6}. 


L'événement G = “obtenir un chiffre plus petit que 3 ou multiple de 3" est 
représenté par l'union de E et de F : 


G=EUF = {1,2,3,6}. 


L'événement “E ou F" est appelé disjonction de E et F. Il est réalisé lorsque 
soit E, soit F, ou soit les deux événements simultanément se réalisent. 


« Relations entre événements 


Incompatibilité 


Deux événements sont dits incompatibles ai leur réalisation simultanée 
est impossible, c'est-à-dire si l'intersection entre les deux événements est vide : 
ANE = é. 


Implication 


La relation “l'événement À implique l'événement B° signifie que si À se 
réalise, alors F se réalise aussi. Dans un tel cas, l'ensemble représentant l'événe- 
ment À est inclu dans l'ensemble représentant l'événement B. On écrit alors : 
AC B. 
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7.3 Bases axiomatiques des probabilités 


Considérons une expérience aléatoire dont l’ensemble fondamental ( contient n 
éléments. Notons z:1,22,...,2, les éléments possibles de l'expérience : 


[= {æ1,T2,...,Tn}. 


Nous associons 4 chaque élément x; une probabilité p{r;}. La probabilité p 
est une fonction qui fait correspondre un nombre compris entre Ü et 1 à tout 
événement simple d'une expérience aléatoire : 


p: (2 [0,1]. 
Les probabilités plr;} ont les nid suivantes : 
e les probabilités p(x;} sont non-négatives : 
pri) > 0 pour i=1,2,...,n. 


« la somme totale des probabilités est égale à 1 : 
ri 
Ÿ_ pli) = 1. 
il 


7.3.1 Règles des probabilités 


La probabilité d'une combinaison quelconque d'événements peut étre obtenue à 
partir des probabilités des événements élémentaires. Certaines règles de bases 
sont : 


1. La probabilité de l'événement certain est la plus grande probabilité que 
peut obtenir un événement : 


p(N) = L 
2. La probabilité de l'événement impossible est égale 4 0 : 
si Az, alors plA)=0. 


8. Soit À le complémentaire de À dans (, la probabilité de À est égale à 1 
moins la probabilité de À : 


4. Soient À et 5 deux événements incompatibles (AN = #), la probabilité 
de l'union À U B est égale à la somme des probabilités de À et de B : 


P(AU B) = p(A) +p{B). 
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5. Soient À et B deux événements quelconques, la probabilité de À LU B est 


ôgale à : 
PAU B)= p(A) +p{B)-p{ANB). 


Le cas particulier (règle 4) concernant deux événements incompatibles se 
déduit en notant que si À et BF sont incompatibles AM E = $ et par con- 
séquent p(ANB)= 0. Ce résultat peut se généraliser pour rn événements 
mutuellement incompatibles. 


. Soient A;, 4s,...,4,,, m événements mutuellement exclusifs (deux à deux 


incompatibles) (A: NA; = @, pour tout à £ j}, la probabilité de leur union 
est égale à : 


plAi U A0... U Am) = p(A1) + p(A2) +... + plAn). 


. Si les événements A1, 42,..., 4, sont mutuellement exclusifs et exhaustifs 


are 
(AN À; = 6, pour tout i £ j et 1 À; = (}, la probabilité de leur union 
iæ] 


est égale à : 


PA) + p(Aa) +... + P(Am) = L. 


Dans ce cas, on dit que Les événements À:,...,.4, forment une partition 
de l'ensemble fondamental. 


Exemple 7.1 En raison d'un contretemps, les parents d'Albert (a), de 


Brigitte (b}, de Charles (c), et de Danielle (d) ne peuvent pas utiliser leur billet 
d'abonnement au théâtre de la ville, Ils décident de donner les billets à deux de 
leurs enfants choisis d'une façon aléatoire. Quelle est la probabilité qu'une fille 
et un garçon soient choisis ? 


L'ensemble fondamental consiste en 6 paires d'enfants. Il y a donc six pos- 


sibilités : 


= {ab, ac, ad, bc, bd, cd}. 


Chaque possibilité a une probabilité de 1/6. 
Les événements qui nous intéressent sont ceux correspondant au choix d'une 


fille et d'un garçon. [Il y en a quatre : 


Fille et garçon Événements 
Albert et Brigitte A = {ab} 
Albert et Danielle A2 = {ad} 
Charles et Brigitte A3 = {cb} 
Charles et Danielle A4 = {cd} 
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On a donc : 


P(A1 U Aa U A3 U A4) = 


> 


+ 

le — 

LT 
, 
ps 
Lu 
+ 
=, 
nu 
os 
+ 
&. 


les El d le TS 


7.3.2 Probabilités conditionnelles 


Quand les événements sont liés entre eux, l'information concernant un des évêne- 
ments peut modifier la probabilité des autres événements. On parle donc de 
probabilités conditionnelles. 

Considérons un parc de 100 voitures réparties selon deux critères, confort et 
vitesse, Pour simplifier, on fera la distinction suivante : 


rapide 


Une voiture peut être 
OL OT. 


| confortable 
Une voiture peut être { 


OU MOT. 


Mous donnons la répartition des 100 voitures considérées selon ces critères 
dans le tableau 7.1 : 


Tableau 7.1 : Répartition de 100 voitures selon deux critères 
rapide pas rapide total 


confortable 40 1 50 
inconfortable 20 40 50 
total 60 40 100 


On choisit dans cet échantillon, une voiture au hasard, chaque voiture ayant 
la méme probabilité d'être choisie. Le modèle est alors défini par : 

f = {ensemble des voitures} = {21,...,2100}, 

plri) = 1/100 pour tout à, i = 1,.,,,100 


Soient les deux événements : 

À = “choisir une voiture rapide” et 

B = “choisir une voiture confortable”. 

En se référant à la première colonne et à la première ligne du tableau 8.1 
respectivement, on obtient : 


60 
p(A)= 5 = 0.6 
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50 
B\ = = 


puis, en tenant compte du nombre de voitures rapides et confortables : 


40 
PANB) = 5 = 0,4 

Imaginons maintenant que l'observateur connaisse une partie de l'informa- 
tion : la voiture qui a été choisie est rapide. Il peut alors se demander quelle 
est la probabilité pour qu'elle soit aussi confortable. Nous désipnerons cette 
probabilité par p{B | À), qui signifie “probabilité de B sachant que l'événement 
À s'est déjà réalisé”, ou probabilité de B conditionnée par À, Le modéle 
initial ({,p) sera remplacé par le nouveau modèle (Q,.,p(B | A)). 


Dans ces conditions, nous avons : 


Ü,5 


car le calcul des probabilités doit se faire en tenant compte du fait que la voiture 
choisie est parmi les voitures rapides. 

La probabilité p{B | À) est appelée probabilité conditionnelle, D'une 
façon générale, la probabilité conditionnelle d'un événement # sachant À est 
décrite par p{F | À) et est définie comme suit : 


_ pANnB) 
_ (4) 


la probabilité de À étant considérée comme différente de zéro, plA) # 0. 
En multipliant les deux côtés de cette identité par p{A}, nous obtenons : 


p{B | À) 


P(AN B) = p{A):p{B | À). 


On peut vérifier que l’ordre est indifférent et nous pouvons avoir également 
l'expression suivante : 


p(ANB}=»B) -p(A|B). 


Exemple 7.2 Un couple a décidé d'avoir des enfants jusqu'à ce qu'il ait une 
lle. Mais dans aucun cas, il ne désire plus de quatre enfants. Sachant que le 
premier enfant n'a pas été une fille, quelle est la probabilité que ce couple ait 
finalement quatre enfants ? 

Si l'on représente la naissance d'un garçon par & et celle d'une fille par F, 
on a les possibilités suivantes décrites par l'ensemble fondamental : 


Q= {FGF GGF GGGF,GGGG}. 


Le dernier cas GGGG correspond à la situation où aucune fille n'est née au 
terme des quatre enfants. 


Notions élémentaires de probabilités 143 


Les probabilités correspondantes sont : 


PF) = à 
DGF) + = 
mMGGF}) = =: 
nMGGGF) = . 
HGGGG) = . 
p(A) = L 


Le fait que le premier enfant ne soit pas une fille est décrit par l'événement : 


ÀA={GF GGF.GGGF, GGGG}. 


La probabilité de À est donc : 


1 1 1 1 L 
ra tal ie 2 


S'il y avait quatre enfants, on aurait l'événernent : 
B={GGGF GGGG} 


avec la probabilité : 


Nous cherchons la probabilité de B sachant À C'est la probabilité condi- 
tionnelle p{B | À) : 


MBA) 
p(A) 
1/8 1 


1/2 4 


p(B| A) = 


Ainsi, en sachant que le premier enfant n'est pas une fille, il y a une chance 
sur quatre que ce couple ait finalement quatre enfants. 
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7.3.3 Indépendance 


En langage courant, quand deux événements ne sont pas liés entre eux, on 
dit qu'ils sont indépendants. En théorie des probabilités, on utilise le mot 
“indépendant” plus ou moins dans le même sens mais avec une définition précise. 

Considérons l'exemple du lancement d'un dé, et définissons les événements : 


A = “obtenir un nombre inférieur à 5° 
= {1234} 
B = “obtenir un nombre pair” 
= {246}. 
ANS = “obtenir un nombre pair inférieur à 5" 
= {2,4}. 
On a les probabilités suivantes : 
4 2 
Ai=--=— 
3 1 
piB} = : 
2; 1 
ANFj\= ==, 
A or 


On dit à l'observateur que le lancement du dé a produit une valeur inférieure 
à 5 (on lui donne donc l'information que “A s'est produit”) et on lui demande 
maintenant quelle est la nouvelle probabilité de BF. L'observateur calcule la 
probabilité conditionnelle : 


Il constate que la probabilité de B conditionnée par À est égale à la proba- 
bilité de B. La probabilité de E n'est pas modifiée par l'information fourme 
concernant À. On dit alors que B est indépendant de À. 

De même, si l'on donne à l'observateur l'information “EF s'est produit”, 1l 
calcule la nouvelle probabilité À : 


PANNE) 1/3 7 


PA | B) = PB) "12 73 


= p(A). 

À nouveau la probabilité de À n'est pas modifiée par l'information fournie. 
À est donc indépendant de B. 

Si À est indépendant de 8, B est forcément indépendant de À. Nous pouvons 
donc dire que À et F sont indépendants. À et F sont indépendants si et 
seulement si : 


P(ANB) = p{A) -p(B). 


Notions élémentaires de probabilités 145 


7.4 Analyse combinatoire 


Reprenons l'expérience aléatoire du lancement d'un dé. Mous avons trouvé la 
probabilité de À et la probabilité de B par intuition. Pour trouver la probabilité 
de À (obtenir un nombre inférieur à 5), nous avons compté le nombre d'éléments 
dans l'ensemble À que nous avons divisé par le nombre d'éléments de l'ensemble 
fondamental, c'est-à-dire le nombre de cas possibles de l'expérience. Nous avons 
effectivement établi l'égalité suivante : 


nombre de cas favorables 
nombre de cas possibles | 


p(A) = 


Dans cet exemple et dans beaucoup d'autres situations, les nombres de cas 
favorables et de cas possibles de l'expérience sont intuitivement faciles à dénom- 
brer. Il y a d'autres exemples dans lesquels ce dénombrement n'est pas aussi 
évident. Examinons les exemples suivants : 


- Chaque canton a deux représentants au Conseil des États, On choisit par 
tirage au sort une commission de 23 membres parmi les 46 conseillers. Quelle 
est la probabilité que tous les cantons soient représentés ? 

- Dans une société de 12 membres, on désigne au hasard 4 personnes qui 
feront partie d'une commission. Quelle est la probabilité pour deux amis d'être 
choisis ensemble ? 


Ce type de dénombrement est facilité par la connaissance de l'analyse com- 
binatoire. 

L'analyse combinatoire est l'étude des différentes manières de “ranger” 
des objets. Ces objets peuvent étre des nombres, des individus, des lettres, etc. 
Nous examinerons ici les cas qui se présentent le plus fréquemment. 


« Permutations 


On appelle permutation un rangement, ou un classement ordonné de n objets. 
Si nous disposons de trois objets a, b et c, les permutations possibles sont les 
suivantes : 


abc acb bac bea cab cba 


soit 6 permutations au total. Le nombre de permutations possibles de 3 objets 
est égal à 3! = 1-2:3. Dans le cas général, le nombre de permutations de n 
objets est égal a nl=1:2:4...n. 


+ Permutations avec répétition 


Le nornbre de permutations que l'on peut obtenir si certains des objets sont 
identiques est plus faible que si tous les objets étaient distincts. Far exemple, 
nous désirons “ranger” trois boules vertes et deux boules bleues toutes identiques 
excepté leur couleur. Nous avons bien 5 objets à notre disposition, mais nous 
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né pouvons pas faire La distinction entre les boules vertes ou les boules bleues. 
Le nombre de permutations possibles sera donc plus restreint que le nombre de 
permutations de 5 objets distincts qui est 5! = 120. Il faudra diviser ce résultat 
par le nombre de permutations possibles des boules vertes (3! = 6} et celui des 
boules bleues (2! = 2) puisqu'elles ne sont pas différentiables. Le nombre de 
permutations sera donc égal à : 


#1 
a 


(31-21) 


Dans le cas général, lorsque nous avons n objets comprenant respectivement 
rue, ...,n. termes identiques, le nombre de permutations est égal à : 


nl 
fl nl...n!t 


+ Arrangements 


Il faut distinguer le cas où l'on range des objets en tenant compte de l'ordre du 
cas où l'ordre n'importe pas. Dans le cas où l'on tient compte de l'ordre, nous 
parlerons d'arrangements. 

Nous désirons savoir par exemple combien de nombres à trois chiffres peuvent 
être formés avec l'ensemble 1, 3, 5, 7, 9. Il est clair que l'ordre des chiffres est 
important : 193 est différent de 319. Pour dénombrer tous les cas possibles, 
nous parlerons d'arrangements de trois chiffres parmi cinq. Si les trois chiffres 
doivent être tous distincts, nous parlerons d'arrangement sans remise ou 
d'arrangement sans répétition. Dans ce cas, le nombre d'arrangements est 
égal à : 


3 5! 


À; _ (5-3) 3j = 0. 


Dans le cas général, si nous devons trouver le nombre d'arrangements possi- 
bles de & objets parmi n sans remise, nous appliquerons la formule suivante : 


A = TS = nn — 1)(n 2) ie (n—k+1). 


Si en revanche le même chiffre peut apparaître plusieurs fois, nous parlerons 


d'arrangement avec remise ou d'arrangement avec répétition. Dans ce 
cas, le nombre d'arrangements est égal à : 


R* = n*. 
Appliquée à notre exemple, cette formule nous donne : 


RÈ = 59 = 198. 
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On peut former donc 125 nombres différents de trois chiffres avec les cinq 
chiffres 1, 4, 5, 7 et 9. 


« Combinaisons 


Si l'ordre dans lequel les objets ont été choisis ne nous intéresse pas, nous pou- 
vons parler de combinaisons. C'est le cas si nous désirons tirer d'une urne 
cinq boules au hasard, qui en contient quinze numérotées. Ce qui nous intéresse 
ici, c'est le numéro que portent les boules. L'ordre dans lequel ces boules ont 
été tirées nous importe peu. À nouveau, il faut distinguer les cas avec remise 
des cas sans remise. 

Si les boules ne sont pas remises dans l'urne après chaque tirage, nous parlons 
de combinaisons sans remise, ou de combinaisons sans répétition. Dans 
notre exemple, le nombre de combinaisons possibles se calcule comme suit : 


15! 
Ch = ————— = 3 008. 
15 51.{15—5)! 


La formule générale du nombre de combinaisons sans remise de k objets 


parmi n est égale à : 
|" _ 
Uk] kl-{n—&k)l 


La notation (*} représente les coefficients binômiaux et se lit 
“na binümial &”. 

Si, après chaque tirage, on remet la boule extraite dans l'urne, il est possible 
qu'une boule soit tirée plusieurs fois. Nous parlons alors de combinaisons avec 
remise où de combinaisons avec répétition. Le nombre de combinaisons 
avec remise de À objets parmi n est égal à “(n + & — 1} binômial £”. Nous le 
notons ainsi : 


_Cfn+k-11 in+£&-t1lil 
Kt- | k )-S 


Appliqué à notre exemple, on obtient : 


(15+5—1) 
us =iÿ = 11 628. 


K 15 = 
Il y a donc 11 628 combinaisons avec remise possibles. 
Les différents types de rangements sont illustrés avec un exemple de 4 ob- 
jets (A, B, C et D) pour lesquels il s'agit d'énumérer toutes les permutations, 
arrangements et combinaisons de deux lettres et ce, avec et sans remise : 
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ABCD BACD CABD DABC 
ABDC BADC CADB DACEB 
ACBD BCAD CBAD DBAC 
Permutations | 4! = 24 ACDB BCDA CBDA DECA 
ADBC BDAC CDAB DCAB 
ADCB BDCA CDBA DCBA 


Arrangements AB AC AD BA CA DA 
sans remise 41/2 = 12 BC ED CD CB DE DC 
Arrangements AA CC AB AC AD BA CA DA 
avec remise 4? = 16 BB DD BC BD CD CB DB DC 
Combinaisons 

sans remise 4/21! = 6 AB AC AD EC BD CD 
Combinaisons AA BB CC DD AB 

avec remise 5! /213! = 10 AC AD BC BD CD 


7.5 Historique 


La statistique inférentielle est complémentaire à la statistique descriptive, car 
le but de la plupart des recherches n'est pas seulement d'établir un certain 
nombre d'indicateurs sur un échantillon donné, mais aussi d'estimer les valeurs 
des paramètres caractérisant la population associée à l'échantillon traité. 

L'origine de la statistique inférentielle coïncide avec celle de la théorie des 
probabilités et correspond notamment aux travaux de T. Bayes (1763), de A. 
de Moivre (1718), de C. F. Gauss (1809) et de P. 5. Laplace (1812). 

Par la suite, les recherches dans le domaine de la statistique inférentielle 
ont été nombreuses, Citons, par exemple, les travaux de F. Galton (1889) 
relatifs À La corrélation, ainsi que le développement des tests d'hypothèses dû 
principalement à K. Pearson (1900) et à W. S. Gosset dit “Student” (1908). 
J. Neyman et L Fisher (1956) ont également contribué de façon essentielle au 
développement de la statistique inférentielle, 

Si les jeux de hasard sont très anciens, ce n'est pourtant qu'au 17° siècle avec 
B. Pascal (1623-1662) et Fermat (1601-1665) que la théorie des probabilités va 
véritablement prendre forme. Selon I. Todhunter (1949), Pascal fut sollicité par 
un joueur réputé, A. Gombauld, pour résoudre le problème suivant : quelles 
sont les chances de succès de deux adversaires, sachant qu'à un certain stade 
du jeu l'un à gagné n parties et l'autre p, le premier qui gagne m parties de- 
vant remporter toute la mise. Pascal prit contact avec Fermat qui trouva une 
solution. Pascal, quant à lui, découvrit la formule de récurrence lui permettant 
d'aboutir à un résultat identique. 

Un aspect des probabilités intéressant particulièrement les mathématiciens 
est l'analyse combinatoire. Les questions d'analyse combinatoire occupaient 
déjà les Chinois voici 3 000 ans : un ouvrage de cette époque décrit les arrange- 
ments possibles d'un ensemble de n éléments (avec n < 6). Cependant, ce n'est 
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qu'avec les travaux de Fermat et Pascal que l'analyse combinatoire prit véritable- 
ment toute son importance, En revanche, le terme même d'analyse combinatoire 
fut introduit par G.W. Leibniz (1646-1716) en 1666. Il étudia systématiquement 
les problèmes d'arrangements, de permutations et de combinaisons. 

Dans la seconde moitié du 19° siècle, A. Cayley (1829-1895) résolut certains 
problèmes de cette analyse en utilisant des graphes. Enfin, on ne saurait évoquer 
ce sujet sans mentionner un ouvrage important, celui de P.A. Mac-Mahon (1854- 
1929), paru sous le titre “Combinatory Analysis” (1915, 1916). 

La notion d'indépendance à été implicitement utilisée bien avant qu'un en- 
semble formel d'axiomes des probabilité ait été établi. Selon L.E. Maistrov 
(1974), Cardano utilisé déjà la règle de la multiplication des probabilités. Maistrov 
mentionne également que les notions d'indépendance et de dépendance entre Les 
événements étaient très familières à Pascal, Fermat et Huygens. 

La probabilité conditionelle a été introduite par A. N. Kolmogorov (1933). 
Elle joue un rôle essentiel dans la théorie et dans l'application des probabilités 
et des statistiques. 


7.6 Exercices 


1. La qualité de production d'une entreprise est contrôlée en examinant des 
lots de marchandise pris au hasard. Pour ce faire, on décompte le nombre 
de lots non-défectueux jusqu'à l'apparition du premier lot défectueux. 


(a) Dénombrer l'ensemble fondamental de cette expérience. 


(b}) Indiquer la nature de l’ensemble fondamental. Est-il fini dénom- 
brable, infini dénombrable ou infini continu ? 


3. De même, indiquer la nature des ensembles suivants : 


(a) L'ensemble des professions reconnues en Suisse. 
(b) L'ensemble des valeurs possibles pour l'indice des prix à la consom- 
mation. 


3. À quelles conditions deux événements indépendants peuvent-ils être dis- 
joints ? 


4. On définit dans l'espace fondamental ® = {a, b, €, d} les événements 
suivants : 


ÀA= {a} C= {a,b,c} 
B= {a,b} D= {d} 
Connaissant les valeurs des probabilités : 
P{AUB)= 1/2, P(ANC)= 1/6 et BU C) = 2/5, 
calculer P(A), P(B), P(C), et P(D). 
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5. Les employés d'une entreprise sont répartis de la manière suivante : 


Ouvriers Super- Cadres 


viseurs 
220 14 2 
220 36 8 


(a) Quelle est la probabilité qu'un ouvrier pris au hasard soit de sexe 
féminin ? 

(b) Faire le même calcul pour un superviseur et pour un cadre. 

(c) Pour régler les affaires syndicales, une commission est formée d'un 
ouvrier, d’un superviseur et d'un cadre. Calculer la probabilité que 
la commission ne comprenne aucune femme. 


{d) Quelle est la probabilité que la majorité de la commission soit com- 
posée de femmes ? 


. D'après des calculs météorologiques, il a été démontré que dans une région 


montagneuse de Suisse, la probabilité de précipitation pour un jour de 
novembre est de 30%. La probabilité est double (60%) si le jour précédent 
a été aussi pluvieux. 


(a) Calculer la probabilité de deux jours pluvieux consécutifs au mois de 
novembre dans cette région. 

(b} Sachant qu'il n'a pas plu le 6 novembre, quelle est la probabilité qu'il 
pleuvra le 7 novembre ? 


. Le mois de naissance ést indépendant d'une personne à l’autre, Quelle est 


la probabilité que quatre membres d'une famille soient nés dans des mois 
différents ? 


. Combien de séquences différentes composées de six lettres peut-on former 


avec les lettres du mot SUISSE ? 


. On a mesuré à plusieurs reprises (sur une période de 12 mois consécu- 


tifs) le statut économique d'une personne (E = ayant un emploi, U = au 
chômage). 


(a) Combien de séquences différentes (EE ... U ...E) sont possibles ? 


(b} Pour combien de ces séquences la durée du chômage serait de neuf 
mois ou plus sur l'année ? 

(c) Combien d'entre elles correspondent à une durée de chômage de neuf 
mois consécutifs ou plus ? 


Chapitre 8 


Variables aléatoires 
discrètes 


Une variable dont la valeur est déterminée en fonction du résultat d'une expé- 
rience aléatoire est appelée variable aléatoire. On distingue généralement les 
variables aléatoires dites discrètes de celles qualifiées de continues. Les 
variables aléatoires présentées dans ce chapitre sont caractérisées par leur état 
“discret”, à savoir que pour chaque valeur admise pour ce type de variable est 
associée une probabilité strictement positive ou nulle ; la somme des probabilité 
positive étant égale à 1. 


Ce chapitre a pour objectif de présenter les différents concepts relatifs à une 
variable aléatoire discrète ainsi que les lois de probabilités discrètes les plus 
utilisées, à savoir la loi de Binémiale, La loi de Bernoulli et la loi de Poisson. 
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8.1 Nature d'une variable aléatoire 


Lorsqu'on jette une pièce de monnaie dix fois, on obtient à chaque fois soit 
pile soit face. On peut donc prendre pour résultat de cette expérience la suite 
“PPFPFFPPFP", par exemple. 

Supposons que l'on s'intéresse au nombre de “face” que contient cette suite 
de dix éléments. On peut associer le résultat à un nombre entier situé entre Ô 
et 10. 

Nous obtenons donc une fonction définie sur l'ensemble fondamental qui 
prend des valeurs comprises dans l’ensemble {0,1,...,10}. 

La fonction associée à un résultat quelconque d'une variable aléatoire est gé- 
néralement désignée par une des dernières lettres de l'alphabet (en majuscule). 
Et est elle-même appelée variable aléatoire. 

Une variable aléatoire est donc une fonction à valeurs réelles définie sur 
l'ensemble fondamental. Autrement dit, une variable aléatoire réelle X est une 
application de { dans À : 


X:0—# 
Une variable aléatoire entière positive À est une application de (? dans K : 
X:0O—N 
Si on lance une pièce de monnaie trois fois, l'ensemble fondamental est : 
{= {PPP, PPF, PFP, FPP, PFF, FPF, FFP, FFF} 


où P représente “pile” et F “face”, La séquence PPP signifie que les trois 
lancers ont donné trois piles ; PPF indique que les deux premiers lancers ont 
donné deux piles et le troisième une face ; et ainsi de suite pour les autres 
séquences possibles. 

À partir de cet ensemble, nous pouvons définir diverses variables aléatoires 
dont, par exemple, les variables aléatoires X, Ÿ et Z : 


X = nombre total de “pile” : 
F = nombre de “pile” lors des deux premiers essais ; 


£ = nombre de “pile” lors des deux derniers essais. 


Lhans le tableau 8.1, nous trouvons la liste des 8 événements et la valeur des 
variables aléatoires X, Y et Z correspondante. On remarque que X est une 
variable aléatoire prenant une valeur dans l'ensemble {0,1,2,3}. Y et Z sont 
aussi des variables aléatoires définies sur l'ensemble fondamental, qui prennent 
des valeurs incluses dans l'ensemble {0,1,2}. 
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8.1.1 Loi de probabilité 


La loi de probabilité, p(r), est une fonction qui associe à chaque valeur x de 
la variable aléatoire À sa probabilité P(X = x). On écrit : 


p{x) = P(X = x) 


et on l'appelle loi de probabilité de X. 
Cette fonction est discrète lorsque l'ensemble des valeurs prises par X est 
un ensemble dénombrable de nombres réels, tel que # = {21,70,...,24,...} 


Tableau 8.1 : Événements et variables aléatoires 


Événement X Y Z 
PPP d 
PPF 
PFP 
FPP 
PFF 
FPF 
FFP 
FFF 


See es 9 3 13 
on St nu b Hg 
SCD EE K 


On représente graphiquement la densité par des rectangles de largeur égale 
à l'unité. La somme des aires des rectangles correspond à la somme des proba- 
bilités et doit donc obligatoirement être égale à L. 


Fée) 


Figure 8.1 : Loi de probabilité de la variable aléatoire discrète X 
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Pour la variable aléatoire À = nombre total de piles apparues sur trois 
lancers, les probabilités correspondant aux différentes valeurs de X sont don- 
nées dans le tableau suivant : 


T T1] = (] ïa = 1 Ta = 2 Ta = à Total 


plz) | 1/8 3/8 3/8 1/8 1 


Comme un des huit événements possibles doit se réaliser, la somme des p{x;) 
doit être égale à 1. La figure 8.1 montre la fonction de densité de la variable 
aléatoire discrète X, 


8.1.2 Fonction de répartition 


On appelle fonction de répartition d'une variable aléatoire X la fonction F 


définie par : 
F{z) = PIX < x). 


Pour un nombre réel x, la fonction de répartition de X correspond donc 
à la probabilité pour que X soit inférieure ou égal à x. Nous pouvons relever 
les propriétés suivantes : 


- Fest une fonction croissante ; 

- F prend des valeurs situées dans l'intervalle [0,1] ; 
- F(-0c0) = 0 ; 

- F{+co) = L 


Considérons l'expérience aléatoire consistant à lancer deux dés successive- 
ment. Soit la variable aléatoire À égale à la somme des points des deux dés. 
Nous cherchons la probabilité de l'événement (X < 5}. Par définition, cette 
probabilité est la valeur prise par la fonction de répartition pour la valeur x = 5. 

La variable aléatoire X prend des valeurs comprises dans l’ensemble {2, 3, 
4, 5, 6, 7, 8, 9, 10, 11, 12}. Les probabilités associées à chaque valeur de X sont 
données par le tableau suivant : 


Total 


Pour construire la fonction de répartition, nous créons un nouveau tableau 
associant à chaque valeur x de X la somme des probabilités pour toute valeur 
inférieure ou égale à æ. Aïnsi, on obtient le tableau suivant contenant les pro- 
babilités cumulées : 


L- 


Fix) = PIX € #) 
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Graphiquement, nous représentons la fonction de répartition de la variable 
aléatoire discrète comme illustrée par La figure 8.2 : 


Figure 8.2 : Fonction de répartition de la variable aléatoire discrète X 


8.1.3 Espérance mathématique 


L'idée intuitive de l'espérance mathématique puise son origine dans les jeux 
de hasard. Considérons le jeu suivant : on lance un dé plusieurs fois de suite. 
Supposons que, pour une mise de 1 franc, on gagne un franc si le résultat obtenu 
est pair (2, 4 ou 6), deux francs si le résultat est L ou 4, et on perd trois francs 
si le résultat est 5. L'ensemble fondamental est : 


N = {1,2,3,4,5,6) 


- on gagne 1 franc si le résultat est un des éléments de l’ensemble {2,4,6}: 
- on gagne 2 francs si le résultat est un des éléments de l’ensemble {1,3}; 
- on perd 3 francs si le résultat est 5. 


Soit la variable aléatoire X correspondant au nombre de francs gagnés ou 
perdus, Le tableau ci-dessous représente les différentes valeurs de X et leur 
probabilité associée : 


ï — à L 2 
mix) [1/6 3/6 2/6 


À quel gain (ou à quelle perte) devons-nous nous attendre suite à de nom- 
breux essais ? Connaissant les différentes probabilités associées aux événements. 
nous pouvons dire que notre espérance de gain dans un essai est égale à : 


3 2 L 4 2 
E(X)= 1242: ST=2=2 
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En d’autres termes, le joueur gagne en moyenne 2/3 franc pour chaque mise 
de 1 franc. De manière générale, la valeur moyenne ou espérance mathématique 
de la variable aléatoire discrète X, dénotée u ou E(X), est égale à : 


p= E(X) =: pÜr) +22 - pla) +... 


Si X prend n valeurs r1,22,...,2:, E(X) est donc défini comme suit : 


E(X) = PRE] pÜri). 


=] 


L'espérance mathématique est donc la moyenne des valeurs de X° pondérées 
par leur probabilité respective. Dans le cas où E(X) = 00, on dit que l'espérance 
mathématique n'existe pas. 


+ Propriétés de l'espérance mathématique 
- soient à et b deux constantes et X une variable aléatoire : 


EaX +6) = a.E(X)+b 


- soient X et Ÿ deux variables aléatoires : l'espérance mathématique d'une 
somme est égale à la somme des espérances mathématiques. De même pour les 
différences : 


E{X +Y) = E(X) + E(Y) 
E(X -Y)= E(X)- E(Y) 
- soient À et Y deux variables aléatoires indépendantes : 


E(X.Y)= E(X):E(Y). 


8.1.4 Variance 


La variance e* ou Var(X} d'une variable aléatoire discrète est obtenue en mul- 
tipliant le carré de chaque écart à la moyenne (x, — p)? par la probabilité cor- 
respondante, et en faisant la somme de chacun de ces produits : 


Li 


D (x u) -p(xi) 


i=l 


E{X — u}?, 


Il 


a = Var(X) 


La variance d'une variable aléatoire est équivalente à la notion de variance 
introduite au chapitre 5 pour un ensemble de données quelconque, aléatoire ou 
non. Sa mesure représente l'ampleur de la déviation par rapport à la moyenne 


Hi. 
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Reprenons l'exemple étudié ci-dessus pour le calcul de l'espérance mathéma- 
tique. La variance sera donc égale à : 


Var(X) 


Il 
nn, 
pas 
| 
sl tS 
LL, 

LE 

il és 
, 
Es 

| 
les 
LS 
k3 

les 
+ 

| 

Cas 

| 
TRE 
LR) 
Le] 
alr 


= 2,088. 


On calcule souvent la racine carrée de la variance, appelée écart-type, notée æ. 
L'écart-type & correspondant est donc égal à : 


g = 4/2,88 = 1,69. 


« Propriétés de la variance 
- soient a et b deux constantes et X une variable aléatoire : 


Var(aX +b) = a°: Var(X}. 
En effet : 
Var(aX + b) = E(aX +b— ElaX +6). 


Or, d'après la première propriété de l'espérance mathématique ét après sim- 
plification : 


Var(aX +b) = Efa’(X - E(X)}°] = a?E(X — E(X)} 


a? . Var(X) ; 


- solent À et Y deux variables aléatoires indépendantes : 


Var(X +Y}) = E[X+Y-E(X+Y) 
EI(X -EX)+(Y-EY)f 
E{X —- EX) + E(Y — EY)* +2E{X - EXMY — EŸ) 


Var{X}+ Var(r} 


Î 


Ce résultat se généralise pour n variables indépendantes. Soient X,, X, 
…. An, n variables indépendantes, nous obtenons : 


Var(Xs + Xa +... +4 Xl = Var(Xi) + Var(Xa) +... + Var(X,). 


Donc pour les variables indépendantes, La variance d'une somme est égale à 
la somme des variances. Ce résultat sera très utile dans les chapitres suivants. 
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8.2 Loi conjointe 


Soit une variable aléatoire X qui prend des valeurs sur un ensemble discret de 
points Z1,22,... et une autre variable aléatoire Y° qui prend des valeurs sur 
un ensemble également discret de points y;,w2,.... Le modèle probabiliste du 
couple (X,Y} est entièrement défini par la loi de probabilité conjointe ou 
loi de probabilité simultanée : 


px, y} = PIX = x) (F2 y)}, T = Tj;doss.s 
= Mis. 


Exemple 8.1 Soient deux tests psychologiques effectués successivement et 
pour lesquels un sujet quelconque reçoit une note X de Q à 3 pour le premier 
test et une note Ÿ de 0 à 2 pour le second test. Les probabilités de toutes les 
éventualités du couple (X, YF} sont données dans Le tableau 8.2 : 


Tableau 8.2 : Probabilités de tous les événements 


Ü 1 2 3 
0 [0,07 0,15 0,25 0,08 
Y 110,05 0,10 0,13 0,04 
210.04 0,05 0,063 0,01 


Les probabilités contenues dans le tableau sont appelées probabilités con- 
jointes ou probabilités simultanées, On lit, par exemple, que la probabilité 
d'avoir r = 2 et y = 1 est : 


P(X =2)0(Y = 1)] = 0,13. 
Notons qu'en général : 


D PIX =%)0(Y = w;)] = 1. 
œ 


8.2.1 Loi marginale 


La loi de la variable aléatoire X, composante d'une loi conjointe (X,Ÿ), est 
appelée loi marginale. On dit que la loi est marginale car elle correspond à 
la répartition de À qui se lit sur la marge du tableau croisé X et Y”. On parle 
alors de loi de probabilité marginale : 


px(ri)= P(X = xi)= À PÜX = x) NY = v;)] 


De même pour Y : py-(y;} = PIY = y) =}, PICX = 2) NT = wi)l. 
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Les probabilités P(X = x;) pour à = 0,1,2,3 sont obtenues en ajoutant 
toutes les valeurs PÎY = y;) correspondant à la colonne X = x. Ces sommes 
sont inscrites dans la marge du bas du tableau. Elles caractérisent la loi mar- 
ginale de X. 


De même, les probabilités P(Y = y,) pour j = 0,1,2 sont obtenues en 
ajoutant toutes les valeurs P(X = r;} correspondant à la ligne Ÿ = y. Ces 
sommes sont inscrites dans la marge de droite du tableau, Le tableau 8.3 
représente les probabilités conjointes et marginales des variables aléatoires X 
et Ÿ. 


Tableau 8.3 : Probabilités conjointes et marginales de X et Y 


Total 
0 | 0,07 0,15 0,25 0,06 | 0,55 

F 110,05 0,10 0,13 0,04 | 0,32 
210.04 0,05 0,03 0,01 | 0,13 

Total | 0,16 0,30 O,41 0,13 | 1,00 


Exemple 8.2 Considérons l'expérience aléatoire dans laquelle une pièce de 
monnaie est lancée trois fois, X étant le nombre de “face” dans les deux premiers 
jets et Ÿ le nombre de “face” dans les deux derniers jets. Le tableau 8.4 montre 
les différentes valeurs possibles de À et YF : 


Tableau 8.4 : Liste des événements possibles 
Événement X Y 


PPP 0 0 
PPF 0 1 
PFP L 1 
FPP 1 
PFF 1 À 
FPF 1 1 
FFP 2 1 
FFF 2 à 


Les variables aléatoires X et Ÿ prennent toutes deux des valeurs sur l'ensern- 
ble {0, 1,2}. Le tableau 8.5 représente les probabilités conjointes et marginales 
de À et Ÿ. 
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Tableau 8.5 : Probabilités conjointes et marginales de À et Y 


| Total 
0,250 
0,500 


Figure 8.3 : Lois de probabilité conjointe et marginale de X et Y 


8.2.2 Covariance 


La covariance entre deux variables aléatoires discrètes X et Ÿ décrit l'association 
entre les différentes valeurs de X et de Y. La covariance est définie par rapport 
à la loi conjointe de X et Y : 


Cov(X,ŸY) = E(X - px {Y — y) 


dr ax (y; — my)plxs vs) 
m 


où pÜri,ys) = PICX = mi) NY = y;)] et ux, uy dénotent l'espérance mathé- 
matique de X et Ÿ’, respectivement. 

Une définition équivalente de la covariance souvent plus facile à utiliser pour 
les calculs est : 


Con(X,Y) = E(XY)-uxhy 
>. TP (Ti, Y5) — 2 Tip(ri) D wp(u;) 
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où pÜr.) et p(y;) sont les lois marginales de X et de Y” respectivement. 
On vérifie que la covariance d'une variable avec elle-même est égale à la 
variance de celle-ci. Donc : 


Cou(X, X) = Var(X) 


et 
Cou(Y,Y}= Var(Ÿ}. 


Si les deux variables À et Ÿ sont indépendantes, La covariance entre X et 
Ÿ est égale à zéro. Ce résultat se vérifie À partir de la définition précédente de 
la covariance en notant que pour deux variables indépendantes, la loi conjointe 
est égale au produit des deux lois marginales. Donc, on a : 


pli, V5) = pri) : P(y) 


Cou(X,Y) 


> (si — dx us — dy )Ptripiy;) 


ij 


Vi — ax pri) - Ÿ (us — uy)p(u;) 
i j 


Il 


(ux — x) — y) = 0. 


Concernant une loi conjointe quelconque, la covariance entre X et Y peut 
avoir une valeur positive où négative, dépendant du type d'association entre les 
variables, En se référant aux données du tableau 8.3, on calcule : 


4 
D_mxp(xi) 


i=Ù 


0 -0,16 + 1 -0,30 +2 0,41 + 3 - 0,13 


= 1,51. 


00,55 + 1:-0,92+2-0,13 


2 
D _wplys) 
Jj=0 
= 0,58. 


3 ©? 
> 2. TiYjP(Ti, V;) 


0 je 


0-0-0,07 +0-1:-0,05 + 0:2:-0,0M4 


+1:-0:-0,15+1:1:0,10+1:-2-0,05 

+2: 0: 0,25 + 2-1: 0,13 + 2: 2-0,03 

+3 -0:0,08 +3: 1-0,04 + 3:2-0,01 
= (), 76. 


162 Chapitre 8 


et donc, 


Cev(X,Y}) = 0,76 — 1,51 - 0,58 


m —{}, 1156. 


Une valeur négative de la covariance entre les variables À et Ÿ indique que 
les valeurs de X plutôt grandes ont tendance à étre associées avec des valeurs 
de Y plutôt petites et vice-versa. On parle d'une association ou corrélation 
négative. 


Exemple 8.3 Le tableau 8.6 présente les résultats d'une étude dans le do- 
maine médical, relative à 2 278 patients d'un hôpital. Les patients sont divisés 
en deux groupes : ceux atteints d'un cancer pulmonaire (X =—1} et les autres 
{X =0). Les membres de chaque groupe sont ensuite répartis selon le nombre 
de paquets de cigarettes fumés en un jour, soit la variable notée Y : 


Tableau 8.6 : Distribution de 2 278 patients à une étude médicale 


Cancer Nombre de paquets de cigarettes | Total 
puisonaire 


Û 1247 492 319 58 912135 
1 66 50 28 6 3 153 


Total 1413 542 A7 (GA 12 | 2278 


On souhaite étudier l'association entre le cancer pulmonaire et la consom- 
mation de cigarettes en calculant la covariance entre les deux variables X et Y’. 
En calculant : 


h+k = proportion de personnes atteintes d'un cancer pulmonaire 
= 6,7164% 

uv = nombre moyen de paquets de cigarettes 

consommés par patients 
= 0,647. 
on obtient : 
CoutX,Y} = 1-1:50+1:2 _ 3-6+1-4-3 Erre 
= Ü,0641 — 0,067164 - 0,6479 


= 0,02. 


La covariance étant de signe positif, le résultat indique qu'il y a un lien positif 
entre la déclaration du cancer pulmonaire et La consommation de cigarettes. Il 
reste à déterminer si cette valeur positive de la covariance est statistiquement 
significative, 
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8.3 Loi de Bernoulli 


De nombreuses expériences aléatoires sont formées d'une suite d'épreuves iden- 
tiques et indépendantes, chacune n'ayant que deux résultats possibles, les mêmes 
tout au long de l'expérience. Quand les probabilités des deux résultats possibles 
sont constantes d'une épreuve à l'autre, la suite d'épreuves est dite de Bernoulli 
en l'honneur de Jakob Bernoulli, mathématicien bâälois, qui écrivit en latin Ars 
conjectandi, ouvrage sur les probabilités complété par son neveu, Niklaus, et 
publié après la mort de l'auteur en 1715. 


8.3.1 Épreuves de Bernoulli 


Une suite d'épreuves est dite de Bernoulli si elle satisfait aux trois conditions 
suivantes : 


1. À chaque épreuve, on associe le même ensemble fondamental constitué des 
deux éléments “échec” et “succès”. 


2. La probabilité correspondant à chacun des événements simples reste cons- 
tante au fil des épreuves, soit : 
P(succès) =p  O<p<l 
Piéchec) = q qg=l-7p 

Les probabilités p et g ont des valeurs constantes pour toutes les épreuves 


3. Les épreuves sont mutuellement indépendantes. Le résultat d'un essai est 
indépendant de celui de tout autre essai. 


Les épreuves de Bernoulli ont une signification importante car elles servent 
comme modèle mathématique pour beaucoup de phénomènes réels, L'étude 
de la composition, masculin-féminin, d'une population homogène se base sur 
les épreuves de Bernoulli. En fait, le sexe d'un bébé à la naissance peut être 
considéré comme une épreuve de Bernoulh, le sexe à chaque naissance étant 
“masculin” ou “féminin”: la probabilité d'une fille ou d'un garçon reste essen- 
tiellement constante à chaque naissance : et le sexe de l'enfant est considéré 
indépendant d'une naissance à l'autre. 

Dans une chaïne de production, on vérifie la qualité de production en choi- 
sissant aléatoirement des lots différents. Dans un lot, chaque marchandise ins- 
pectée est classifiée comme “bonne” ou “défectueuse”. Dans des situations nor- 
males, chaque inspection peut être considérée comme une épreuve de Bernoulli, 
car la classification n'a que deux résultats possibles (“bonne ou “défectueuse” ) : 
la probabilité de trouver une marchandise “défectueuse” est constante pour les 
marchandises du même lot ; et les marchandises mspectées sont indépendantes 
les unes des autres. 

En pratiqué, avant d'utiliser le modèle de Bernoulli pour décrire mathé- 
matiquement un phénomène courant, il est important de bien vérifier que les 
trois conditions des épreuves de Bernoulli soient bien remplies. Far exemple, 
l'emploi et le chômage ne s'appliquent pas tout-à-fait au modèle de Bernoulli car 
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la première condition n'est pas remplie pour une certaine partie de la population. 
De plus, il peut y avoir plus de deux situations possibles : une personne peut 
ne pas avoir d'emploi ni être au chômage, mais par exemple être retraitée. 

La deuxième condition des épreuves de Bernoulli n'est pas satisfaite si la 
probabilité p varie d'une épreuve à l'autre, c'est le cas en météorologie quand la 
probabilité de pluie varie d’une saison à l'autre, 

La troisième condition des épreuves de Bernoulli est satisfaite si les épreuves 
sont indépendantes les unes des autres. Un exemple où cette condition n'est 
clairement pas satisfaite est la séquence de voyelles et de consonnes dans la 
langue française. Les voyelles et les consonnes ne se suivent pas d'une façon 
indépendante : une voyelle est plus souvent suivie d'une consonne que d'une 
autre voyelle, 

Dans tous ces cas, le modèle de Bernoulli ne s'applique pas directement. 


8.3.2 Variable de Bernoulli 


Le modèle de Bernoulli se décrit souvent en termes de variables aléatoires. On 
dit qu'une variable aléatoire X suit une loi de Bernoulli de paramètre p si : 
x = 1 avec une probabilité p 
0 avéc une probabilité (1 — p) = q. 

La valeur x = 1 correspond à l'événement “succès” et x = 0 à “échec”. 
Une suite d'épreuves de Bernoulli est représentée par les variables aléatoires 
indépendantes À, X3,..., où chaque variable X;, à = 1,2,,.., suit une loi de 
Bernoulli identique à X. 

L'espérance mathématique d'une variable de Bernoulli est obtenue en 


appliquant la formule de l'espérance mathématique pour les variables quantita- 
tives discrètes (voir section 8.1.3). On obtient : 


Ll 
E(X)=Ÿ 1: P(X=32) 


z=Ù 


l:p+0:(1-pl=p 


F 
Il 


Donc la probabilité de “succès”, p, est aussi la moyenne d'uné variable de 
Bernoulli. 
On obtient de même pour la variance (voir section 8.1.4) : 


à 
il 


1 
2 = Var(X)=Y (z-y)}.P(X= 7x) 


(1—p}°-p+(0—p)?.(1-—p) 
p'(1-p}-[(1-p)+p»] 
p(l—-pl=p.q 


Il 
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La variance d'une variable de Bernoulli est donc le produit des deux proba- 
bilités de l'épreuve, la probabilité de “succès” (p} multipliée par la probabilité 
d'“échec” (g). 

On constate que pour une variable de Bernoulli, la moyenne et la variance 
sont liées l’une à l'autre. La valeur de l’une détermine la valeur de l'autre. La re- 
lation entre la moyenne et la variance d'une variable de Bernoulli est représentée 
graphiquement dans la figure £.4. 


Figure 8.4 : Relation entre la moyenne et La variance d'une variable de 
Bernoulli 


On constate aussi que La valeur minimale de la variance est zéro correspon- 
dant à u=p=0et up l, alors que la valeur maximale est 1/4, correspon- 
dant àu=p=}]/2. 


8.4 Loi binômiale 


Quand il s'agit de la somme d'une série d'épreuves de Bernoulli, on parle de la 
loi binôémiale. La loi binômiale s'applique au nombre de “succès” ou d'“échecs” 
qui s'est produit pour n épreuves de Bernoulli. 


Exemple 8.4 Un couple décide d'avoir 3 enfants. Quelle est la probabilité 
qu'il ait une fille et deux garçons ? Deux filles et un garçon ? Trois filles ? Ou 
trois garçons ? 

Soit À le sexe du premier enfant, X1 = 1 si l'enfant est une fille et X3 = 0 
si l'enfant est un garçon. La variable X'; est une variable aléatoire de Bernoulli. 
Supposons que la probabilité d'avoir une fille ou un garçon soit la même, on a : 

P(X1 = 1) = P(X; = 0) = : 

ù 
2 1 
PTIT 3: 


Pour une famille de trois enfants, il y aura trois variables de Bernoulli, X1, Xa 
et Xs, où X1 représente le sexe du premier enfant comme décrit précédemment, 
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X2 représente le sexe du deuxième enfant et X3 celui du troisième enfant, Les 
possibilités sont les suivantes : 


Trois filles Xi=1 Xi=l X3=1 


Deux filleset X1—=1 Xs5=1 ZX3=0 
Un EArÇGOn À = Ao=0 ÀÂ3=1l 


Une fille et X1=1 X2=0 X3=0 
deux garçons X1=0 Xs=1 X:3=0 


Trois garçons X1=0 X2=0 X:=0. 


On note que le norabre de filles dans cette famille est déterminé par la somme 
des trois variables X,, A3 et X3 : 


5 — nombre de filles 
= ÀXy+ Xa + Ka. 


La variable $ est une variable aléatoire : elle est constituée de la somme de 
trois variables de Bernoulli. Pour répondre aux questions posées concernant la 
composition des enfants de ce couple, nous devons chercher la loi de probabilité 
que suit cette variable 5. 


Les valeurs possibles de la variable $ sont 0, 1, 2 et 4, correspondant à zéro 
fille, une fille, deux filles et trois filles. Nous pouvons trouver les probabilités : 


PIS = 0) = PIX: + Xo + X3 = 0) 
= P(Xi = 0)P(X2 = 0)P(X3 = 0) 
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PS 1e AMI GES D 
= PIX = 1, X2 = 0, Xs = 0 

ou X1 = 0, Xe = 1, X4 = 0 

ou A1 = 0, À: = 0, Â3 = 1) 

= RS =UX EU 
+PIX = 0, Xo = 1, À = Ü) 
+P(X: = 0, Xe = 0, X3 = 1) 
1 1 1 1 1 


2 272 3372 


Et 
] 


hs 
2 


ls] 


P(S =2) = P(X1+ Xa + Xa = 2) 
= PIX; = 1, X2 = 1, Xa = 0) 
+P(X, = 1, Xe = 0, X3 = 1) 
+= 0 X=1Xs=1) 
1 


P(S=3) = P(X1 + X2 + X3 = 3) 
= P(Xi = 1)P(Xa = 1)P(Xs = 1) 


Ces résultats correspondent à une distribution binômiale. Ils peuvent être 
généralisés. 


Considérons une urne contenant N boules, dont k sont blanches et N — &k 
sont noires. Nous effectuons n tirages, en remettant chaque fois la boule dans 
l'urne avant le tirage suivant. Nous définissons La variable aléatoire X comme 
le nombre de boules noires obtenues à la fin des n tirages. La variable aléatoire 
peut donc prendre les valeurs comprises entre Ü et n. 


Au premier tirage, on peut obtenir une boule blanche ou une boule noire. 
Au deuxième tirage, on peut également obtenir une boule blanche ou noire, quel 
que soit le résultat du premier tirage. Et ainsi de suite jusqu'au n° tirage. 
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Nous illustrons les événements par un schéma en arbre : 


1" tirage Æ tirage  S° tirage 


blanche 


noire 


blanche 


| blanche 
noire | 
noire 


Nous voyons qu'à chaque tirage, il y a deux résultats possibles. Notons par p 
la probabilité de tirer une boule noire { “succès” } et par g = 1 — » la probabilité 
de tirer une boule blanche (“échec”). 

Nous cherchons la probabilité des différentes valeurs de X après le premier 
tirage, après le deuxième, etc. Elles sont données dans le tableau suivant : 


Evén. Variable Probabilité P{x) 
aléatoire 
après 1 tirage N X = 1 FX =llier 
B X =0 q P{X =0)=q 
après 2 tirages NN X = 2 p° P(X =2)=p 
NE X = i pq 
FIX =1)=2 
BN  X=1 pq | AT 
BB X =0 g° P(X = 0} = q° 
après 3 tirages  NNN = pp P(X=3)=p 


pat P(X=2)=3pq 


2 | P(X = 1) = 3pg? 


Il 


> 
7 
De nd nd nd nd nd né Le 
Il 
Se ei 69 HO ES ps 
So 
CE | 


Il 


BBB q P{X = 0) = g°. 
Notons que La probabilité totale après chaque tirage est toujours égale à 1 : 
après l'tirage: p+qg=l 
après 2 tirages : _p? + 2pg + q° = (p+q° = 1 
après 3 tirages : p° + 3p°g + 3pq° + g° = (p + q}° = 1. 
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Ces valeurs se retrouvent dans le triangle de Khayyam-Pascal (voir E. 
Noël (1985). “Le matin des mathématiciens”, HBelin-Radio France, Paris.) 
représenté ci-dessous : 


La généralisation de l'expression de la probabilité totale après n tirages est : 


nin — 1 
(p+q)" = pont ge MD ne ge. 
nn — 1) 
a 
2 


Typiquement, un événement simple formé de x succès et de (n — r) échecs 
(dans n'importe quel ordre}, a comme probabilité une valeur proportionnelle à 
p":qg" ". Le nombre de cas possibles pour obtenir x succès parmi n tirages est 
le nombre de combinaisons possibles de x “objets” parmi n, soit : 


-g"lin.p.g""| + gt. 


n! 
zlfn — r}l 


Ca = 
La probabilité d'obtenir x succès parmi n tirages est donc : 


PiX=r=Cr-p gs, æ—0,1,2,...,n. 


On dit que la variable aléatoire X suit une loi binômiale de paramètres n et 
p, et l'on note X + B(n,p}. La loi binômiale B(n, p) correspond à la somme de 
n variables de Bernoulli indépendantes chacune de paramètre p. 
On en déduit que l'espérance mathématique d'une variable binômiale est 
égale à : 
p=np 


et la variance est égale à : 


Par ailleurs, on peut vérifier que : 


> rCip"q" * 


z=û 


E 
Il 


Rp 
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&t 


nm 
À ÿ (x #}? CE pq" 


æ={ÛÙ 


= NN. 


L'expression P(X = x) = Cf-p"-q"* est à la base du calcul des probabilités 
d'une variable binômiale. L'expression est facilement calculable quand n est 
petit, par exemple, n plus petit que 10 ou 12. Quand n est plus grand, le calcul 
ést plus élaboré et demande plus d'efforts. Pour des valeurs modérées de n, 
inférieures à 25 ou 30, des tables de probabilités binômiales sont disponibles 
{voir annexe 1). Quand n est grand, supérieur à 25 ou 40, on peut utiliser des 
approximations comme indiqué plus loin (distribution de Poisson ou distribution 
normale). 


Exemple 8.5 Un jury est composé de 12 personnes choisies au hasard et 
d'une façon indépendante à partir de la liste électorale d'une commune. Sachant 
qu'il y a quatre fois plus d'hommes que de femmes dans la liste, quelle est la 
probabilité que le jury soit composé d'autant de femmes que d'hommes ? 

La composition du jury suit une loi binômiale, B{n,p} avec n = 12 et p = ?, 
où p représente la probabilité de choïsir une femme de la liste électorale de 
la commune. Le jury est formé d'autant de femmes que d'hommes s'il y a 
exactement six femmes. La probabilité de cet événement est : 


C$, : pf : g12—6 


_ 12 fi)". +) 
7 6t6t À5 5 
— SR Se 


P(X = 6) 


1-2.3-4-5.6 
3 164 104 
= Sais — 0015. 


On peut vérifier que ce résultat (à trois décimales près) est le même que celui 
obtenu directement en consultant la table binômiale correspondant à n = 12, 
p=û,et r=6. 

Lorsqu'on cherche la valeur d’une probabilité binômuale qui est fonction 
d'une valeur de p non mentionnée dans la table binômiale, on procède par inter- 
polation. Par exemple, si dans l'exemple 8.5 sur la composition du jury, la liste 
électorale contenait trois hommes pour chaque femme (au lieu d'un ratio quatre 
pour un}, la probabilité p serait = — 0,25, une valeur qui ne se trouve pas dans 
la table binômiale présentée en annexe 1. Cependant, on peut utiliser la table 
pour obtenir une approximation de la probabilité qu'un jury soit composé d'au- 
tant de femmes que d'hommes en interpolant entre les valeurs des probabilités 
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correspondant à p = Ù,2 et p = 0,4. Ceci donne : 


P(X = 6|p= 0,2) = 0,016 
P(X = 6|p= 0,3) = 0,079 


et la valeur approximative par interpolation est : 
PIX =6|p= 0,25) = (0,016 + 0,079)/2 = 0,047. 


La valeur exacte calculée à partir de la formule Cf, -p% -g!?"$ pour p = 0,25 
donne la valeur 0,051 proche, à quatre millièmes, près, de 0,047. 

Un grand nombre de problèmes demandent le calcul de sommes de proba- 
bilités plutôt que de probabilités prises individuellement, Par exemple, on peut 
s'intéresser à la probabilité qu'un couple avec trois enfants ait au moins une 
fille. Ceci demande de calculer la somme de trois probabilités : la probabilité 
d'avoir exactement une fille, la probabilité d'avoir exactement deux filles, et La 
probabilité de n'avoir que des filles. En termes de symboles mathématiques, 
cela donné : 


P(S>1) = P(S=1)+ P(S =2)+ P(S =3) 
= S° PS = x) 
= 
= DCS prog. 
= Cid + Cia +Cip° 


1 
Pour p=q= 2; on trouve : 


P(S > 1) = 0,875. 


On appelle les expressions de ce type, des probabilités bindômiales cu- 
mulées. 


Exemple 8.6 Une machine fonctionne grâce à 24 composantes identiques. 
La probabilité qu'une composante tombe en panne est égale à g = 0,2. La 
machine fonctionne quand au moins deux tiers des composantes sont en marche. 
Calculer la probabilité du fonctionnement de l'engin. 

Cette probabilité correspond à la valeur de la probabilité cumulée d'une 
distribution binümiale avec n = 24 et p = 0,8. On a : 


P{fonctionnement) =  Pinb de composantes en marche > 16} 
24 


S_ Chl0,8)"(0,2)#-*, 


z=i6 


Le calcul ou l’utilisation d'une table des probabilités binômiales cumulées 
donne la valeur 0,964. 
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8.5 Loi de Poisson 


La loi de Poisson est un modèle probabiliste qui convient particulièrement 
au phénomène de comptage d'événements rares situés dans le temps ou dans 
l'espace. S'agissant du temps, on peut citer comme exemple : le nombre de par- 
ticules émises par une substance radioactive, le nombre d'erreurs téléphoniques 
enregistrées par une centrale téléphonique, le nombre d'accidents intervenus sur 
une autoroute par jour, ou encore le nombre d'arrivées à un guichet. En ce 
qui concerne l'espace, on peut étudier le nombre de bactéries contenues dans 
une préparation microscopique, le nombre d'éléphants dans une jungle, etc. En 
général, nous pouvons étudier toute distribution de “points” lorsque ces points 
se positionnent au hasard soit dans Le temps, soit dans l'espace. 

Une variable aléatoire X suit une loi de Poisson de paramètre À, que l’on 
note X + P{A) si : 


ex. x" 

kl 
où À représente le nombre moyen d'événements par unité de temps (ou d'espace), 
et À le nombre d'événements attendus. 


P(X = k) = k = 0,1,2, 


Exemple 8.7 Si le nombre moven d'arrivées de clients à un guichet par 
minute est égal à 1,9, calculons la probabilité d'observer 5 arrivées dans une 
minute donnée, supposant que les arrivées sont indépendantes les unes des 
autres, 

Dans notre problème, la valeur de À est égale à 1.9, et la valeur de k est 
égale à 5. Nous aurons donc : 

1.5 1 95 
P{X =5)= re — 0, 0309. 

La probabilité de voir arriver 5 clients au guichet dans une minute donnée est 
donc de 3,09%. Nous représentons à la figure 8.5 la loi de Poisson de moyenne 
1,9. 


DLL T 
ü.4 


y 


ELA 


Figure 8.5 : Loi de Poisson de moyenne 1,9 
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On vérifie que La somme des probabilités sur l'ensemble des nombres naturels 


est égale à 1. 


Démonstration : prenant compte du fait que : 


nous obtenons : 


= ES k au 1 Æ 

e" - À 1 À 

> P(X=k)= > L DT 
= ee =e=1 


Calculons l'espérance mathématique de la loi de Poisson : 


u = SEkP(X = k) 


kil ki} 


Il 
ge 


= À. 


La loi de Poisson est entièrement définie par sa moyenne égale à À . Le 
paramètre À représente donc la moyenne par unité de temps ou de surface. On 
peut également démontrer que 4° = À, Ainsi, s'agissant de la loi de Poisson, 
espérance mathématique et variance sont égales. 


8.6 Approximation de la loi binômiale par la loi 
de Poisson 


La loi de Poisson peut être utilisée dans certaines conditions comme une ap- 
proximation de la distribution binümiale, ce qui facilite les calculs, souvent 
compliqués dans le cas de la distribution binômiale, mais plus simple dans le 
cas de la distribution de Poisson. Considérons l'exemple suivant : 


Exemple 8.8 Les lampes fabriquées par une usine, comme toute production, 
sont parfois défectueuses. Le taux de lampes défectueuses est de 3% pour l'usine 
en question. Quelle est la probabilité que dans un lot de 100 lampes, 8 soient 
défectueuses ? 
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Soit X le nombre de lampes défectueuses dans un lot de 100 lampes : X 
est une variable aléatoire qui suit une loi binémiale de paramètres n = 100 et 
p = 0,03, on écrit X -B(100, 0,03). 

Pour répondre à la question posée, nous calculons la probabilité : 


PIX =8) = Cép(0,03)#(1 — 0,03)°2 
100! . é 
= gg2 (0: 03) {1 — 0,03} = 0,0074. 
Le lecteur a constaté que le calcul de cette probabilité binômiale n'est pas 
simple. Il demande d'évaluer le produit : 


100! 93-94 - 95 - 96: 97 - 98 - 99 : 100 
8192! 1-2-3-4-5-6-7-8 
et le calcul des expressions (0,03)% et (1 — 0,03)°?. 

Mais fort heureusement, quand la probabilité binômiale p est faible et n 
est grand, la loi binômiale peut être approchée par la loi de Poisson dont le 
paramètre À est obtenu par le produit des paramètres de la loi binômiale : 
À = np. 

Dans l'exemple précédent, on obtient donc : 


À = 100-0,03 
= 4, 
En utilisant la loi de Poisson avec un paramètre À = 3, nous calculons : 
AË 
Al em À 
P(X=8) =e ar 
KL 
_ #1 
= € = rl 
= 0,0081 


Ce résultat 00081 est en effet proche de la valeur exacte 0,0074 obtenue sur 
la base de la loi binômiale. 

L'approximation de la loi binômiale par la loi de Poisson est d'autant meilleure 
que n est grand et que p est petit. En général, on considère n grand quand 
n > Met p petit quand p < 0,05. 


8.7 Historique 


La notion d'espérance mathématique est liée à celle de variable aléatoire. Le 
principe de l’espérance mathématique est apparu pour la première fois dans 
l'ouvrage de C. Huygens (1629-1695) “De ratiocinits in alene Ludo” en 1657. 
Les lois de probabilité se sont alors développées. Parmi les plus anciennes, la 
loi binômiale fut découverte par J. Bernoulli en 1715. Plus récente, la loi de 
Poisson a pris le nom de son inventeur S. D. Poisson. Il publia en 1837 cette 
distribution qu'il a découverte en s'intéressant aux limites de la loi binômiale. 
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8.8 Exercices 


1. Un vote a porté sur 2 questions (réponse : oui ou non). Dans un village 
de 200 votants, on a obtenu les résultats suivants : 


EYYYYTYTYTYTYTYTYTYVÇ-.,.,.",_,2Z2 2 2. ._._._—…...…. 
Questions 1 Question 2 Nombre de votes 


oui oul 10 
oui non 30 
nor oui 40 
non NOT 120 


On définit : X, = vote relatif à La question 1 
Xs = vote relatif à La question 2. 


(a) Calculer la probabilité P(X3 = “oui ). 
(b) Calculer la probabilité conditionnelle P(X, = “oui | X2 = “oui” ). 


(c) Peut-on conclure que les votes À et X sont indépendants l’un de 
l'autre ? 


2. Pour un couple normal, la probabilité d'avoir un garçon est pratiquement 
égale à La probabilité d'avoir une fille. Un couple, qui a déjà deux filles, 
décide de continuer d'avoir des enfants jusqu'à ce qu'un garçon naiss. Ce 
couple doit s'attendre À avoir combien d'enfants en fin de compte ? 


4. Dans une étude sur la criminalité et la récidive, on considère trois formes 
de délits (vol, blessure et meurtre), définis par la variable X. D'autre 
part, le nombre de fois que le criminel a été mis en prison est défini par 
la variable Y, Les probabilités pour toutes les éventualités des variables 
(X,Ÿ}) sont données dans le tableau suivant : 


Y = nombre de fois mis en prison 


X = délit | 1 2 3 où plus 
Vol 0,26 0,34 0,09 
Blessure | 0,13 0,07 0,07 
Meurtre | O,01 0,02 0,01 


(a) Dériver les distributions marginales de X et de Y. 


{b} Comparer la probabilité de meurtre parmi les récidivistes et celle 
parmi les non-récidivistes. Vérifier que la probabilité de meurtre 
parmi les premiers est deux fois plus grande que parmi les seconds. 


(c) Vérifier que ce ratio est environ 1,1 pour le vol et inférieur à 1 pour 
les blessures. 


176 Chapitre 8 


4. La variable aléatoire X suit une loi de Bernoulli de paramètre p, : 


X = 1 avec probabilité p 
O avec probabilité g = 1 -p 


(a) En utilisant la formule El À — u |, calculer l'écart-moyen de X. 
(b) Four quelle valeur de p, l'écart-moven et l'écart-type sont égaux ? 


5. Soit X la variable définie dans l'exercice précédent. 


(a) Démontrer que les variables aléatoires Y,, Y3 et Ya suivent chacune 
une loi de Bernoulli : 


KH =1-X 
k = x! 

2X 
on 
IE X 


{b} Déterminer le paramètre de La loi de Bernoulli pour chacune des 
variables Y5, Y5 et Ya. 


{c) En déduire, ensuite, l'espérance mathématique et la variance de cha- 
cune d'entre elles. 


(d) Décrire la loi de probabilité suivie par la variable aléatoire : 
Y4 = À (1 — À). 


6. Soient À; et À deux variables aléatoires indépendantes qui suivent la loi 
de Bernoulli de paramètres p1 et pa respectivement. 


{a) Démontrer que le produit Y = XX: suit aussi une loi de Bernoulli. 
(b) Déterminer le paramètre de cette loi de Bernoulli. 

{c) Calculer l'espérance mathématique et la variance de Y. 

(d} Calculer l'espérance mathématique et la variance de : 


E = À + X3. 


7. Environ deux tiers des mots français contiennent la lettre “e”, Soit X,, = le 
nombre de mots contenant la lettre “e” dans une phrase qui se compose 
de ñn mots. 


(a) Quelle loi de probabilité pourrait suivre la variable aléatoire X, ? 


CT 2 | 


(b) Quelle est La probabilité qu'il n'y ait aucun mot avec la lettre “e 
dans une phrase qui contient 12 mots ? 


(c] Quelle est la probabilité que chacun des 12 mots d'une phrase contien- 
ne la lettre “e” ? 
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{d} Calculer les valeurs de la fonction de répartition de X,, pour n = 12. 
(e} Calculer La moyenne et La médiane de X, pour n = 12. 


8. Uné entreprise de service a 1 150 employés dont 862 hommes et 288 
femmes. La probabilité de promotion d'un emplové (homme ou femme) 
au cours d'une année dans cette entreprise est p = (, 2365. 


(a) Quel est le nombre de promotions auquel on pourrait s'attendre du- 
rant une année parmi les femmes ? 


(b}) Il y a eu en fait 61 femmes promues durant l'année dans cette entre- 
prise. Dans l'hypothèse qu'il n'y a pas eu de discrimination, quelle 
est la probabilité d'obtenir 61 femmes promues dans l'année ou méme 
moins ? 


9. Se référant à l'exemple 8.7 de ce chapitre : 


(a) Calculer La probabilité d'observer 4 arrivées de clients au guichet dans 
la même minute. 


(b} Calculer la probabilité d'observer moins de 4 arrivées en une minute. 


(c) Quel est le nombre médian d'arrivées par minute ? 


10. Un aspect important des statistiques relatives aux conflits de travail est 
le nombre de grèves en cours et le nombre de grèves récemment entamées 
durant une période donnée. Soit X la variable aléatoire représentant le 
nombre de journées d'arrêt de travail en ce qui concerne les grèves nou- 
velles et Ÿ le nombre de journées de grève s'agissant de conflits qui ont 
débuté depuis déjà un certain temps et toujours en cours. Les variables 
X et Ÿ sont considérées comme indépendantes. 


(a) Admettant que À suit une loi de Poisson de paramètre Àx = 2, 
quelle est la probabilité qu'au cours d'une journée quelconque, aucune 
nouvelle grève ne se produise ? La probabilité que 2 nouvelles grèves 
se produisent dans la même journée ? La probabilité de 4 nouvelles 
grèves ou plus dans la même journée ? 


(b} Quel est le nombre moyen de nouvelles grèves par jour ? 


(c) On suppose que la variable Ÿ suit aussi une loi de Poisson. Le 
paramètre est Ày = 10. Montrer que le nombre total des grèves 
en cours dans une journée défini par : 


T=AX+F 
suit également une loi de Poisson, et de paramètre : 


AT = À y + Ar. 
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(d}) À partir de (c), calculer la probabilité qu'il n'y ait aucune grève en 
cours (nouvelle ou ancienne) dans une journée quelconque. 


11. Une dactylographe fait en moyenne 2 erreurs de frappe par page. Une 
page contient environ 1 000 caractères. 


(a) Quel est le taux d'erreurs (p) par caractère de dactylo ? 


(b) Admettant que l'erreur de frappe d'un caractère est indépendante 
des autres, montrer que le nombre d'erreurs de frappe dans un texte 
de n caractères suit une loi binômiale de paramètres n et p. 


{c) Calculer la probabilité qu'il y ait exactement 5 erreurs de frappe dans 
un texte de 2 000 caractères. 


(d} Recalculer (c) en faisant l'hypothèse que le nombre d'erreurs de frappe 
par page suit approximativement une loi de Poisson de paramètre 
À = np. Vérifier que les valeurs obtenues dans (c) et (d) sont voisines. 


12. L'Institut suisse de météorologie mesure chaque jour les précipitations 
dans les différentes stations météorologiques et pluviométriques. Si une 
station enregistre plus de 0,1 mm de précipitation durant une journée, nous 
dirons dans cet exercice que ce jour était “un jour de pluie". Le tableau 
suivant indique les “jours de pluie" du mois de novembre des années 1975- 
1985, à Neuchâtel. 

On définit les variables aléatoires X et Y : 


X 


nb. de jours de pluie dans un mois (novembre) 


__ } 1 sile 7 novembre a été un jour de pluie 
Ü si le 7 novembre n'a pas été un jour de pluie 


(a) Quelle est la nature de la variable X ? 


(b) Déterminer la fonction de densité de X et la représenter sur un 
graphe. 


(c) Dessiner la fonction de répartition de X. 
{d) Calculer l'espérance mathématique de X. 
(e) Répéter (a}-(d) pour la variable Y. 


(f) Vérifier qu'approximativement 


E(X) 30 E(Y). 
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1: Jour avec au moins 0,1 mm de précipitations. 

Source : Institut suisse de météorologie, valeurs journahères des précipita- 
tions enregistrées aur stations météorolgiques et pluviométriques, 4° trimestre, 
1975-1985, Station n°. 6340 


PIERRE SIMON DE LAPLACE 
(1749 - 1827) 


Pierre Simon Marquis de Laplace, célèbre 
mathématicien français, est né en 1749 à 
Beaumont-en-Auge en Normandie. Il fut 
membre de l'Académie des Sciences en 
1785, puis Ministre de l'Intérieur sous 
Bonaparte en 1799. En 1816, il fut élu à 
l'Académie Française. 


Lorsqu'à vingt ans Laplace arriva à Paris, il 
avait déjà terminé ses études et commencé 
ses propres recherches. Ses capacités ont 
rapidement impressionné d'Alembert dont 
il allait devenir le disciple. C'est en grande 
partie à Laplace que l'on doit la découverte 
du rôle central de la distribution normale 
en théorie mathématique des probabilités. 
| C'est à lui que l'an doit la découverte et la 
preuve de ce qu'il est convenu d'appeler 
aujourd'hui le Théorème central limite. 
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Variables aléatoires 
continues 


La deuxième catégorie de variables aléatoires est celle des variables aléatoires 
continues. Il s'agit de variables pour lesquelles chaque valeur admise a une 
probabilité strictement nulle, tout en possédant une probabilité globale égale 
à 1. 

Beaucoup de mesures de quantités physiques s'expriment en termes de vari- 
ables aléatoires continues : la durée d'un appel téléphonique, la direction du 
vent, le poids d'un individu. Chacune de ces variables prend ses valeurs non pas 
dans un ensemble discret mais sur des intervalles de la droite réelle : la durée 
exacte d'un appel téléphonique peut être n'importe quelle valeur comprise entre 
0 et l'infini ; la direction exacte du vent peut être n'importe quel angle entre (0° 
et 360° : le poids exact d'un adulte peut se situer n'importe où entre une borne 
inférieure, soit 40 kilos, et une borne supérieure, soit 300 kilos ! Les éventualités 
d'une variable aléatoire continue forment donc un ensemble non dénombrable. 

Comme dans le précédent chapitre, nous présentons au préalable, les carac- 
téristiques associées à une variable continue, avant d'introduire différentes lois 
de probabilité de ce type, à savoir : la loi uniforme, la loi exponentielle négative 
et, bien entendu, la loi normale. 
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9.1 Loi de probabilité 


L'application des lois de probabilité aux variables aléatoires continues pose un 
problème. En effet, dans le chapitre 7 l'application de la notion de probabilité a 
été expliquée dans lé contexte d'événements dont le nombre est fini ou tout au 
moins dénombrable. Que faire quand le nombre d'événements est non dénom- 
brable ? Considérons le problème dans le contexte suivant : une montre tombe 
en panne. La position exacte de la grande aiguille au moment de l'arrêt est une 
variable aléatoire continue. Les positions possibles sont l'ensemble des angles 
entre 0 et 360°. Il y a un nombre infini non dénombrable de positions possibles 
et on veut leur attribuer une probabilité. Comment dénombrer les possibilités ? 

On peut apporter une solution si, au lieu d'attribuer à chaque possibilité 
une probabilité (chapitre 7}, on attribue une probabilité À chaque intervalle de 
valeurs. Ainsi, on va attribuer à chaque intervalle de valeurs compris entre 0° 
et 460°, une probabilité proportionnelle à la longueur de l'intervalle. Si X est 
l'angle à l'arrêt de la montre, la probabilité que l'aiguille soit dans le premier 
quadrant est 1/4 ; qu'elle soit entre 30° et 90° est 1/6. On décrit ce résultat 
par : 


90 — 30 


P(30 £ X < 90) = 


Li 
- 


9.1.1 Fonction de répartition 


L'une façon générale, désignons par X une variable aléatoire continue prenant 
ses valeurs sur l'ensemble des nombres réels #. Soit x un nombre réel particulier, 
la probabilité que X prenne une valeur inférieure ou égale à x est exprimée par : 


F{z) = FX < x}. 


La fonction F{x) est appelée la fonction de répartition de X. Les propriétés 
suivantes peuvent être vérifiées : 


LL lim Fr) =0 


LE —0 


2. lim F(x) =1 


EC 


4. Fr) est une fonction continue dérivable 


A. F{x) est une fonction croissante pour tout x. 


La figure 9.1 montre un exemple de représentation graphique de la fonction 
de répartition d'une variable aléatoire continue. 


Variables aléatoires continues 183 


Fa} 


Li] 
a Bb x 


Figure 9.1 : Fonction de répartition d'une variable aléatoire continue 


La probabilité que la variable aléatoire X prenne une valeur dans l'intervalle 
[a,b] est : 


Pa < X <b}= P(X <b)— P(X < a) = F(b) — Fa). 


Pour l'exemple de l'aiguille de la montre, la fonction de répartition est définie 
par : 
T 
F(x)=— 0<zx< 360 
Page 0 
et Fix) = 0 pour x € Oet Fix) = 1 pour x > 360. La représentation graphique 
de la fonction est présentée dans la figure 9.2. 


Fix 


30 1 


Figure 9,2 : Fonction de répartition de la variable X° (angle de l'aiguille de la 
montre) 


La probabilité que l'aiguille s'arrête à un angle situé entre 30° et 90° est 
donc obtenue à partir du calcul suivant : 


P(30 < X <90) = F(00) — F(30) 
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_ 90 _ 50 
“360 360 
el: 1 
7 4 12 
+ 

= à 


Lorsque X est une variable aléatoire continue (avec aucune discontinuité}, 
la probabilité attribuée à un point z est nulle. On vérifie ceci en utilisant les 
propriétés de la fonction de répartition. On a vu que les probabilités s'appliquent 
aux intervalles. Prenons donc un intervalle autour de x, soît x — à et x + À. 
On obtient : 


Pix-A<X<r+A)=F{x+A)-F(r-A). 


Choisissons À de plus en plus petit. On obtient à la limite : 


lim P(x-A<X<z+A) = lim F(x +4) lim F(x - 4) 
À — 0 —10 À —0 

= F(x) — F(x) 

= (. 


Ce qui montre que la probabilité attribuée à chaque point est nulle. En 
revanche, la densité de probabilité en un point n'est pas nécessairement nulle. 


9.1.2 Fonction de densité 
Reprenons l'expression de la probabilité qu'une variable X° prenne sa valeur 
dans un intervalle quelconque [a,b]. Nous exprimons : 
Pia < X <b) = F(b) — F(a). 
La densité moyenne de probabilité sur l'intervalle [a, b] est exprimée par : 


F(b) — F(a) 


fab) = 


Si on choisit l'intervalle [a, b] comme intervalle de voisinage au point x, avec 
a=r-Aet b= 7 + A, la densité moyenne est : 
F{x + A})-F(x-A) 
24 | 


La limite de cette expression quand À approche zéro donne la densité de la 
répartition au point x. Ceci est exprimé par : 


__ F(t+A)-F(x-A) 
OR Tan 


fix — À,x + À) = 
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La fonction f est appelée densité de probabilité de la variable aléatoire X, 
et correspond à la dérivée de la fonction F(x) au point x. 
La probabilité que X prenne une valeur comprise entre deux bornes a et b 


est donc égale à : 
b 
P(a < X <b)= Î flæ)dr. 


La figure 9.3 montre un exemple de représentation graphique de la fonction 
de densité d'une variable aléatoire continue. 


Figure 9.3 : Surface représentant une probabilité 


Dans cette figure, la surface hachurée correspond à la probabilité que X 
prenne une valeur entre a et b. Nous remarquons qu'il est indifférent d'inclure 
ou d'exclure les bornes dans le calcul de probabilité d'un intervalle, lorsque la 


fonction de densité est continue. 


9.1.3 Espérance mathématique 


La notion d'espérance mathématique se transpose du cas discret au cas continu 
en substituant au symbole Ÿ son équivalent infinitésimal. 

Soit la variable aléatoire continue X prenant ses valeurs sur un intervalle D, 
on appelle espérance mathématique de X, si elle existe, le nombre : 


E{X) = [= rs. 


Comme nous l'avons défini à la section 8.1.3, la moyenne y de la variable 
aléatoire X est égale à l'espérance mathématique, soit u = E(X). On remarque 
que dans le cas des variables discrètes, les coefficients de pondération de la 
moyenne (ou de l'espérance mathématique) sont des probabilités, et dans le cas 
des variables continues, il s'agit de densités. 

Dans l'exemple de l'aiguille d'une montre, la fonction de densité de la variable 
X est égale à : 


1 
OS 
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L'espérance mathématique de X {on entend par là la position d'arrêt de 
l'aiguille) est donc obtenue par le calcul suivant : 


f° rftlds = f” = 


Tr? 


720 


E 
[l 


ati 
_ (360) _ 
. = 730 = 180. 


Donc, en moyenne, l'aiguille s'arrête à mi-chemin du cercle constitué par la 
montre. 

L'espérance mathématique d'une variable aléatoire continue possède des pro- 
priétés analogues à celles de l'espérance mathématique d'une variable aléatoire 
discrète, En particulier, EaX + b) = aE(X) + Bb et l'espérance mathématique 
de la somme de deux variables aléatoires continues est égale à la somme des 
espérances mathématiques : E{X +Y)= E(X) + ET). 


0.1.4 Variance 


La variance «*? d'une variable aléatoire continue, si elle existe, est obtenue en 
multipliant les carrés des écarts à la moyenne (x — x}? par la fonction de densité 
prise au point x et en intégrant ce produit sur l'intervalle D : 


a — LE — 2, ei « H rs 
L a}? - f(x)d 


On vérifie que : 


cr? JL (x — pu) f(x)dx 


1. (x? — Que + p?)f(x)dx 
5 


ÉCOLES RCE 


= l re? f(x)dx — 2 + 
[3 


[ 2° f(x)dx — p°. 
D 


Ce résultat est analogue à la formule déjà obtenue pour la variance des 
valeurs discrètes : 


>ri _ m2 


L. 


re Sri) _ 


On obtient ainsi la variance de la position de l'aiguille de la montre : 
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[l 

ni 
= 
Æ 
ou 


L'écart-type, æ, correspondant est égal à : 
o = v'10 800 = 6043 = 103, 92. 


Les propriétés de l'espérance mathématique et de la variance ont été don- 
nées aux paragraphes 8.1.3 et 8.1.4. Elles s'appliquent aussi bien aux variables 
aléatoires discrètes qu'aux variables aléatoires continues. 

Beaucoup de phénomènes naturels ou sociaux peuvent s'exprimer en termes 
de variables aléatoires continues obéissant à des lois de probabilités particulières. 
Trois d'entre elles sont examinées dans la suite de ce chapitre : loi uniforme, loi 
exponentielle négative et loi normale. 


9.2 Loi uniforme 


La loi uniforme est la loi la plus simple, de densité constante sur un intervalle 
de définition [a,b|. Puisque la surface totale sous la fonction de densité f d'une 
variable aléatoire doit être égale à 1, la fonction de densité de la loi uniforme 
est définie par : 


1 


OR, 


a<r<b. 


Par intégration, nous obtenons la loi de répartition F : 


z ne. 
F(a)= | = = a£<r<b 


L'espérance mathématique de la loi uniforme est égale à : 


u= [ere [2 [2 


De même, on démontre que la variance 4° est égale à : 


1 

d Il x* 
CT — 
ba 2 
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b 
a? = É 2° f{x)dr — pi? 
[rs 


. fie) 
7 £ b-a 2 

een) 
3 b—a 


(b—a)° 
lan 


La figure 9.4 représente graphiquement les fonctions de densité et de répar- 
tition de la loi uniforme. 


fix) F{x) 


Figure 9.4 : Fonctions de densité et de répartition de la loi uniforme 


La variable définissant la position de l'aiguille d'une montre dans l'exemple 
précédent suit une loi uniforme dont Les bornes inférieure et supérieure sont 
a = 0° et b = 460°, respectivement, On vérifie que la position moyenne est 
égale à pu = (360° + 0)/2 = 180% et la variance est : 


ea? = {360 — 0)*/12 = 10 800 


résultats obtenus précédemment. 

Il faut bien noter qu'une distribution uniforme ne veut pas dire une distri- 
bution égale. Ainsi, avec une distribution uniforme, les valeurs de la variable 
sont différentes mais uniformément réparties tout au long de l'intervalle, alors 
qu'avec une distribution égale, toutes les valeurs de la variable sont identiques. 


9.3 Loi exponentielle négative 


Soit un appareil dont les pannes successives suivent un processus de Poisson de 
moyenne À et soit la variable aléatoire X correspondant au temps écoulé entre 
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deux pannes. Sachant que la probabilité qu'il n'y ait aucune panne dans un laps 
de temps x est, selon la loi de Poisson, égale à e 4% et que cet événement est 
équivalent à l'événement X > x, on en déduit par complémentarité La fonction 
de répartition de X : 


F{z) = P{X <z)=1-e 


On dit que X suit une loi exponentielle négative de paramètre À {À > 0} et 
on obtient, en dérivant F(x), la fonction de densité : 


f(x) = AeT** pour x > 0. 


D'une façon générale, cette loi s'applique 4 la durée de vie de systèmes qui 
ne sont pas sujets à un phénomène d'usure. En effet, on peut démontrer que 
la loi exponentielle négative est caractérisée par le fait que la probabilité que le 
système tombe en panne dans un intervalle de temps ne dépend pas de l'origine 
de cet intervalle. 

Les calculs de l'espérance mathématique et de la variance donnent : y = 1/A 
et e? = (1/A*). L'espéranc mathématique est donc égale à l'inverse de la 
movenne de la loi de Poisson associée, c'est-à-dire que si À est le nombre de 
pannes par unité de temps, le temps moyen écoulé entre deux pannes est égal à 
1 /à. 

La figure 9,5 donne une représentation graphique des fonctions de densité et 
de répartition de la loi exponentielle négative. 


fx) Fix] 
ambda i 


Q 4 ü Li 


Figure 9,5 : Fonctions de densité et de répartition de la loi exponentielle 
négative 


La loi exponentielle négative est souvent employée pour des variables aléa- 
toires continues représentant des durées, par exemple, la durée de chômage, 
d'attente dans une queue, de mariage, etc. 
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9.4 Loi normale 


La loi de probabilité qu'on rencontre le plus souvent tant dans les traités de 
statistique théorique que pour ses applications, est la loi de Gauss, encore 
appelée loi normale ou loi de Laplace-Gauss. Cette loi semble avoir été 
formulée pour la première fois en 1733 par De Moivre dans ses recherches sur 
la forme limite de la loi binômiale, En 1774, Laplace retrouva La loi normale 
en tant qu'approximation de la loi hypergéométrique proche de la distribution 
binômiale. Plus tard, les travaux de Gauss en 1809 et 1816 établirent l'aspect 
fondamental de la distribution normale, comme la forme de distribution ré 
sultante des erreurs de mesures. En particulier Gauss a montré que lorsqu'une 
mesure physique est sujette à un assez grand nombre d'erreurs indépendantes et 
additives, l'erreur totale se comporte comme une variable aléatoire dont la dis 
tribution est approximativement une distri-bution normale, d'où l'importance 
de cette distribution. Des circonstances semblables se rencontrent souvent dans 
la pratique et dans beaucoup de domaines : 


- la vente totale d'un produit industriel est la somme des quantités achetées 
par de multiples consommateurs dont les consommations sont plus ou 
moins indépendantes ; 


- le gain total d'une compagnie d'assurances est la somme des gains (ou 
pertes) résultant des différentes polices d'assurances contractées par ses 
clients. 


On peut s'attendre dans de tels cas à ce que La quantité étudiée (vente totale, 
gain total) ou une transformation soit représentée par une variable aléatoire 
suivant approximativement une distribution normale. 


9.4.1 Fonction de densité et fonction de répartition de la 
loi normale 


La loi normale s'applique à des variables aléatoires continues pouvant prendre 
toutes les valeurs réelles possibles, entre moins l'infini et plus l'infini. La loi 
normale est entièrement définie par deux paramètres, la moyenne y et la variance 
æ?. Nous dirons donc qu'une variable aléatoire continue X suit une loi normale 
de paramètres us et «?, et nous noterons X = N{u,a?). 

La fonction de densité qui définit la loi normale N(u,o°?} a pour expression : 


2 
fiz) = =? 3 (+) | DE T< + 


La fonction de répartition correspondante est la probabilité que la variable 
aléatoire X ait une valeur inférieure ou égale à une quantité quelconque x. Cette 
fonction est exprimée par : 
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s nas 
F(x) = P(X sz)= | = 3 (==) |u 


La fonction de répartition ne pouvant être exprimée sous forme explicite, 
d'une facon simple, son calcul demande l'utilisation des méthodes d'évaluation 
numériques. Les résultats de ces calculs sont présentés sous forme de tables, 
appelées tables de la loi normale. 

Fort heureusement, il n'est pas nécessaire de calculer les résultats de la loi 
normale pour diverses valeurs de y: et de «7? car on se ramènera toujours à une 
loi normale de moyenne zéro et de variance égale à 1 par une transformation 
simple. 


9.4.2 Loi normale centrée réduite 


Si une variable aléatoire X suit une loi N{u,*}, la variable 

£ = (X = p}/e suit une loi N(0, 1), appelée loi normale standard ou loi 
normale centrée réduite. Ce cas particulier de la loi normale est très pratique 
; 1 permet de toujours travailler en se référant à une situation standard de la 
loi, en l'occurrence la loi normale centrée réduite, et de transformer les résultats 
pour La loi normale considérée. 

La loi normale centrée réduite correspond à la loi normale avec les paramètres 
u = 0 et «* — 1. Sa fonction de densité est donc : 

1 | . 
fs) = —exp|-—|, —-o <z< +00. 
27 2 


La figure 9.6 représente la courbe normale centrée réduite, Elle est symétrique 
autour de À et la surface totale délimitée par cette courbe est égale à 1. 


Figure 9.6 : Courbe normale centrée réduite 
La symêtrie de la courbe de f(z:) implique que : 


Î{-2) = (2) 
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et que la valeur maximale de f(z) est atteinte à z = Ü, La valeur maximale 


étant f(0) = 1/27 = 0,399. On peut vérifier aussi que les deux points corres- 
pondants à z = —1 et z = 1 sont les points d'inflexion de la courbe de densité. 


La fonction de répartition de la loi normale centrée réduite que l'on notera 
biz) est définie par : 
P(z) = Le L e#"laqz. 
VÈèT 5 


La courbe correspondante est représentée par la figure 9.7 : 


Figure 9.7 : Fonction de répartition de la loi normale centrée réduite 


La symétrie de la courbe de densité par rapport à l'origine implique que la 
fonction de répartition (2) admet un point d'inflexion à z = 0 et que : 


D(—z) — 1 — Pr). 


Ce dernier résultat est très utile, car il permet d'obtenir la valeur de la 
fonction de répartition pour z négatif à partir de la valeur de la fonction pour z 
positif. Donc, il suffit d'avoir en mains la table des valeurs de d(z) pour z > 0. 
Pour les valeurs négatives de z, on utilise la relation &{—2) = 1 — (2). 

Un autre résultat général de la loi normale centrée réduite est la relation 


suivante : 
[. f{z)dz — le f(z)dz 


P(Z <b}- P(Z <a) 


Pia < Z < b) 


D(b) — Da). 


9.4.3 Normalisation 


Le passage de la variable aléatoire X — N(u,a*) à la variable aléatoire Z = 
(X — u}/a, Z - N(0,1)}, s'appelle normalisation. Ce passage nous permet 
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de calculer et de comparer des valeurs appartenant à des courbes normales de 
moyenne et de variance différentes sur la base de la loi normale de référence qui 
est la loi normale centrée réduite. 
Le but de la normalisation est de convertir une valeur de la variable aléatoire 
X en unités standards. On calcule à combien d'écarts-types (æ) se trouve la 
valeur en question par rapport à la moyenne, en tenant compte des signes. 
Voici quelques exemples. 


Exemple 9,1 Pour n'importe quelle distribution normale, on trouve 34,13% 
de la surface entre la moyenne u et un écart-type au-dessus de la moyenne, +, 
Par symétrie, il en est de même entre a et pu — œ. 

Nous pouvons donc dire que la surface qui se trouve sous La courbe entre 
u—e et u + est d'environ 68,26%. 


Figure 9.8 : Pourcentage des observations d'une variable normale centrée 
réduite entre —1 et +1 


De même, entre la moyenne u et u + 27, on trouve 47,72%, et autant entre 
u et u — 27. On constate qu'environ 95% se trouvent dans l'intervalle allant de 
ue — 2er à ju + 2. 

Finalement, 99,74% de la surface totale sont entre ja + er et u — dr. Ces 
relations sont illustrées dans la figure 9.8. 

Exemple 9.2 Soit la variable aléatoire X qui suit une loi normale de 
moyenne u = 23 et d'écart-type # = 1,5. Considérons les valeurs r; = 20 
et ra = 25. et trouvons la probabilité que la variable X se trouve entre x, = A 
et ro = 25. Pour ce calcul nous cherchons pour x, et x2 les valeurs correspon- 
dantes de Z : 
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La figure 9.9 représente la distribution de la variable aléatoire X et les po- 
sitions correspondantes de x1 et x sur la courbe normale centrée réduite. 


#2) 


Û 
Et mr x = 1 33 


Figure 9.9 : Distribution de la variable aléatoire X et courbe normale centrée 
réduite correspondante 


Donc la probabilité que la variable X soit entre x, — 20 et 3 — 25 est égale 
à la probabilité que la variable Z soit entre 2, = —2 et 21 = 1,33 Ceci est 
déduit de l'argument suivant : 


P(20 < X < 25) 


T 


> P(RE<z<ÈE) 


PSE < —H<E) 
îT T 


1,5 1,5 
P(-2 < Z < 1,39) 
= (1,33) — d(—2). 


Sachant que D(—2) = 1 — {2}, on obtient : 
P(20 < X < 25) = (1,33) — 1 + (2) 
ce qui donne, en consultant la table de la loi normale, le résultat suivant : 


P(20 < X < 25) = 0,9082 — 1 +0,9772 
— 0, 8854. 
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9.4.4 Comparaison par rapport à la loi normale centrée 
réduite 


Le passage 4 la courbe normale centrée réduite permet de calculer 4 combien 
d'écarts-types o la valeur de la variable aléatoire X° se trouve par rapport à sa 
moyenne 4, en tenant compte des signes. 
Chaque valeur d'une distribution peut étre transformée en “score” 7, chaque 
£ représentant un écart à la moyenne exprimé en unité d'écart-type. 
Examinons plus précisément par un exemple concret l'utilisation des valeurs 
de 7 relatives à la courbe normale centrée réduite. 


Exemple 9.3 Les élèves d'une école professionnelle ont subi deux épreuves. 
Chaque épreuve a été notée sur une échelle de 1 à 60 et les résultats sont con- 
sidérés comme étant des réalisations de deux variables aléatoires de distribution 
normale. Essayons de comparer les résultats d'un élève obtenus à ces deux 
épreuves. 
Voici les moyennes et les écarts-types de chaque épreuve calculés sur l'ensem- 
ble des élèves : 
épreuve 1 : y, = 35 ; œ1 = 4 
épreuve 2 : ps = 45 ; oo = 1,5. 
L'élève Marc a obtenu les résultats suivants : 
épreuve 1: X1 = 41 
épreuve 2: X5 = 48. 
La quéstion est de savoir dans quel test l'élève Marc a le mieux réussi, com- 
parativement à l'ensemble des élèves de l'école. 
Nous ne pouvons pas comparer directement les résultats obtenus dans les 
deux épreuves puisque ces résultats appartiennent à des distributions de moyenne 
et d'écart-type différents (Figure 9.10). 


Hat} 12 


Fr] d0 36 40 45 5 


Figure 9.10 : Distribution de deux épreuves 


Une première idée est d'examiner la différence de chaque note à la moyenne 
dé sa distribution. Nous obtenons : 
épreuve 1: X1 — p = 41 — 35 = 6 
épreuve 2: ÀXo — us = 48 — 45 = 3. 
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Nous constatons que Marc a obtenu 6 points de plus que la moyenne dans 
l'épreuve L alors qu'il n’a obtenu que 3 points de plus que la moyenne dans 
l'épreuve 2. 

Une conclusion hâtive serait de dire que Marc, comparativement à l'ensemble 
des élèves, a mieux réussi l'épreuve 1 que l'épreuve 2. 

Mais cette conclusion ne tient compte que de la différence de chaque résultat 
à la movenne. Elle néglige la dispersion des notes des élèves autour de chaque 
movenne, En effet, comme Le montre la figure 9.10, la dispersion est beaucoup 
plus grande dans l'épreuve L 

Nous allons donc diviser la différence & la moyenne par l'écart-type pour 
rendre les résultats comparables : 


Xp 6 
épreuve 1 z1 = me nt 1,5 

3h à 
épreuve 2 29 = PS IE Le 2. 


Par ce calcul, nous avons normalisé les résultats X, et X3 : nous les avons 
placé sur la courbe normale centrée réduite afin de les rendre comparables. 

La figure 9.11 montre la position des résultats de Marc sur la courbe normale 
centrée réduite. 

Nous pouvons à présent tirer la conclusion qui s'impose : la valeur de z 
étant plus élevée pour l'épreuve 2 (23 = 2} que pour l'épreuve L (x = 1,5), 
l'élève Marc a, comparativement aux autres élèves, mieux réussi l'épreuve 2 que 
l'épreuve 1. 

En d'autres termes, il y a plus d'élèves qui ont moins bien réussi que Marc 
dans l'épreuve 2 que dans l'épreuve L. 


DFA 


15 à x 


Figure 9.11 : Position d'un élève sur la courbe normale centrée réduite 


9,4,5 Table de Gauss 


Comme nous l'avons dit précédemment, il existe pour cette courbe normale 
particulière une table, la table de Gauss ou table de la loi normale (voir 
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annexe 2), donnant pour chaque valeur positive de z la valeur de sa fonction de 
répartition. 

La fonction de répartition nous donne pour une valeur particulière z, la 
probabilité que Z soit inférieur ou égal à z, ou P(Z < 2). 

Examinons, à l'aide de quelques exemples, l'utilisation de La table de Gauss. 

Exemple 9.4 En raison de divers aléas, le poids d'une boîte de fromage 
n'est pas toujours exactement égal au poids indiqué sur la boîte. Il y a toujours 
des variations, même pour une marque spécifique, comme le montre l'exemple 
suivant. 

Le poids X des boîtes de fromage de marque Salembert suit une loi normale 
de movenne u = 100 gr. et d'écart-tvpe æ = 4 gr, Calculons la probabilité 
qu'une boîte ait un poids situé entre 90 et 110 gr., soit P(90 < X < 110). 

En passant par la variable normale standard Z, nous obtenons : 


P{90 < X < 110) 90 — 100 < M0 100 


I 
T 
LA 
t 
A 


Nous pouvons lire dans la table de Gauss la valeur (2,5) = 0,9938, et 
déduire par symétrie que {—2,5) = 1 — ${2,5) = 0, 0062, d'où : 


P(90 < X < 110) = 0,9938 — 0,0062 = 0,9876. 


Donc la probabilité qu'une boîte de fromage de 100 gr. de La marque Salem- 
bert ait en réalité un poids compris entre 90 et 110 gr. est de 98,76%. 

Ainsi, pour calculer La probabilité d'un intervalle sur l'échelle réelle x, on 
détermine ses bornes sur l'échelle standard z. 


Exemple 9.5 Dans l'exemple 9.4, les valeurs des bornes de l'intervalle con- 
cernant Z (—2,5 < Z < 2,5) étaient symétriques par rapport à zéro. Le principe 
du calcul reste imchangé pour des valeurs de bornes non-symétriques. 

Calculons par exemple la probabilité que Z soit compris entre 1 et 2. On lit 
dans la table de Gauss la valeur correspondant à 1, c'est-à-dire (1) = 0,8413. 
Cette valeur représente la surface sous la courbe normale allant de —co à 1. De 
mème, la valeur correspondant à 2 vaut {2} = 0,9772 représente la surface 
sous la courbe normale allant de —-cc à 2. Ces surfaces sont représentées dans 
la figure 9.12. La probabilité cherchée s'obtient par différence des deux aires 
trouvées ci-dessus, c'est-à-dire : 


P(1< Z < 2} = ®(2) — &(1) = 0,9772 — 0,8413 = 0, 1359. 
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Figure 9.12 : Surface de (a) P(Z < 1) et (b) P(Z < 2) 


Exemple 9.6 Calculons maintenant la probabilité que Z soit compris entre 
—2 et —1. On note que la courbe normale étant symétrique, l'aire comprise 
entre —2 et —1 est la même que celle comprise entre 1 et 2. Donc la probabilité 
que Z soit compris entre —2 et —1 vaut 0,1359. Nous pouvons écrire : 


P(-2<Z<-1) = PA<Z<0) 
= 0,1359. 


Ce dernier exemple illustre un cas particulier d'une relation plus généra- 
le. Soit Z -— N(0,1), une variable suivant la loi normale centrée réduite, la 
probabilité que Z soit entre —b et —a est identique à la probabilité que Z soit 
entre a et b. On écrit : 


P{-b < Z < -a) = P(a < Z <b) 
pour toutes les valeurs de a et b, a < b. 


9.4.6 Approximation de la loi binômiale par la loi normale 


La loï normale s'utilise souvent comme cas limite pour d'autres lois de probabi- 
lités. Ceci permet, quand les conditions sont remplies, d'employer la loi normale 
pour calculer les valeurs approximatives des probabilités engendrées par d'autres 
distributions, souvent plus compliquées que la loi normale. Un cas important 
est l'approximation de La loi binômiale par la loi normale, 

La loi binômiale a été étudiée dans le chapitre précédent. Elle se définit 
par la variable quantitative discrète X prenant les valeurs 0, 1,2,...,n avec les 
probabilités : 


PLX = k) = (x) p}UÉ, k=0,1,...,n. 
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On a vu comment la courbe des probabilités se comporte lorsque p varie 
pour une valeur fixe de #7. Maintenant, nous allons étudier La forme de la courbe 
quand n varie pour une valeur fixe de p. La figure 9.14 montre la variation de 
la courbe des probabilités binômiales pour p — 0,5 quand n prend les valeurs 
successives suivantes n = 2,4, 16. 
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Figure 9.13 : Probabilités binômiales pour n = 2, 4, 16 et p = 0,5 


On remarque que le centre de gravité de la courbe se déplace 4 droite et 
que simultanément, la courbe s'aplatit. Le mouvement de la courbe à droite est 
dû au fait que la moyenne de la variable X, étant égale À np, augmente quand 
#n croit pour une valeur fixe de p. L'aplatissement de la courbe signifie que la 
probabilité associée à chaque point 0,1,2,...,n devient de plus en plus faible 
et que la variance de la distribution devient de plus en plus grande quand n 
augmente. En effet, la variance de X est égale à np(l — p}, donc une fonction 
croissante de n pour des valeurs fixes de p. 

Pour comparer la loi binômiale avec la loi normale, il faut donc la “stabiliser”. 
Afin d'éviter le mouvement à droite, on soustrait la moyenne np de la variable 
binômiale À, pour trouver la nouvelle variable (X — np). Enfin, pour éviter 
l'aplatissement, on ajuste la variable par sa variance npq, ou plus exactement, 
par l'écart-type, pour obtenir la nouvelle variable : 


À — np 
VRP | 


Cette nouvelle variable Z a comme moyenne E(Z) — 0 et comme variance 
Var(Z) = 1 ;: donc méme moyenne et même variance que la loi normale cen- 
trée réduite, Les deux distributions, binômiale et normale, sont maintenant 
comparables et la figure 9.14 montre la similitude quand n augmente de La loi 
binômiale, convenablement ajustée, à La loi normale centrée réduite. 

On remarque que la surface des rectangles représentant les probabilités de 
la variable binômiale transformée Z = (X — np)/,/ñpq, tend à se rapprocher 
de plus en plus de la courbe des densités de la loi normale centrée réduite. La 
surface est d'autant plus proche de la courbe, que la valeur de n est grande, 


où g=1—-p». 
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n = 2,4,16 pour la valeur fixe de p — 0,5. Ce résultat reste valable pour 
d'autres valeurs de p. Par exemple, la figure 9.15 montre l'évolution pour la 
valeur de p = ,2 

Plusieurs remarques s'imposent concernant la figure 9.15. Premièrement, 
on note que pour la valeur p = 0,2, la distribution binômiale Bin,p} est 
asymétrique, mais plus n augmente, plus elle devient symétrique et s'approche 
de la loi normale qui demeure, elle, toujours tout à fait symétrique. Deuxième- 
ment, on remarque que la loi normale se rapproche de façon plus progressive 
lorsque p = Ü,2 que lorsque p = 0,5 (Figure 9.14). Dans le cas p = 0, 2, il a fallu 
aller jusqu'à n = 40 pour obtenir plus ou moins la même approximation qu'avec 
n = 16et p = 0,5. D'une façon générale, on en déduit que pour une valeur fixe 
de n, plus p est proche de 0,5, plus l’approximation de la loi binômiale par la 
loi normale est bonne. De même, pour une valeur fixe de p, plus n est grand, 
plus l'approximation de La loi binômiale par la loi normale est correcte. Nous 
vérifierons ces résultats par la suite avec des exemples numériques. 


fa) K2) 


à -2 A D 1 2 3 T 3 2 4 0 1 2 3 TZ 


3 2 1 0 1 2 3 *À 
(c) 
Figure 9.14 : Approximation de la loi binémiale B{n,p} par la 
loi normale, n = 2,4, 16 et p = 0,5 
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f(z) f(z) 


3 2-1 0 1 2 3 4 3241 0 1 2 3 4 
(a) (b) 


Figure 9.15 : Approximation de la loi binômiale B(n,p) par la 
loi normale, n = 5, 10, 40 et p = 0,2 


Théorème de Moivre-Laplace 


Ce théorème décrit rigoureusement Le Len qui existe entre la loi binômiale 
et La loi normale. Soit X5,X2,...,X,,... une séquence de variables aléatoires, 
dans laquelle l'élément général X, représente la variable binômiale avec les 
paramètres n et p, 0 < p < 1. On considère La variable ajustée correspondante 
En, = 1,2,... telle que : 


An —7p 
VRP 


Le théorème De Moivre-Laplace établit la relation suivante : au fur et à 
mesure que n augmente, la probabilité cumulative binômiale tend à s'approcher 
de la probabilité cumulative normale : 


En = 


202 Chapitre 9 


T—np 
e() 

Ce théorème a une signification importante car il permet le calcul des pro- 
babilités binômiales à partir de la table des probabilités de la loi normale. Par 
exemple, supposons que nous voulons calculer la probabilité d'obtenir plus de 
27 succès dans une expérience binômiale de 100 épreuves, chaque épreuve ayant 
la probabilité de succès p = 0,2. La probabilité binôémiale recherchée peut être 
exprimée par la somme : 


LEO 


Pa >M)= Ÿ, pi | (0,2)*(0,8)19-* 


k=IT 


Le calcul direct de cette probabilité demande l'évaluation de 74 termes, cha- 
eun de la forme ("®}(0,2)*(0,8)/90-%, En utilisant le théorème de Moivre- 
Laplace, cette probabilité peut être évaluée approximativement sur une seule 
étape en tenant compte du lien existant entre la loi binômiale et la loi normale. 
Donc : 


IN 


P(X, > 27) 


+) 
1-+ 

F 
1e 27 — 100 - 0,2 


En se référant à la table de la loi normale, on obtient : 


) = 1— &(1,75). 


(1,75) = 0, 9599 
ét donc : 
P(X, > 27) = 0,0401. 


La valeur exacte 4 4 décimales près de la probabilité binômiale est : 
PIX, > 27) = 0,0558. La comparaison des deux valeurs 0,0401 et 0,0558 montre 
que l’approximation par La loi normale donne un résultat voisin de la valeur 
exacte. 

L'approximation peut être améliorée en utilisant le facteur de correction “un 
demi”. Donc de façon générale, l'approximation : 


Variables aléatoires continues 203 


FE TUE ir) 
PIX, >x)=1 &( = 


est supérieure à celle obtenue sans tenir compte du facteur correctif à qui figure 
au numérateur. Dans l'exemple précédent, on obtient en utilisant Le facteur 
correctif, l'approximation suivante : 


P(XA > x) & 1 — (1,625) = 0,0521. 


Ce résultat est effectivement plus proche de la valeur exacte 0,055$ que celui 
obtenu sans l'utilisation du facteur correctif (0,0401). 

Le rôle du facteur correctif est de permettre un meilleur passage d'une vari- 
able discrète (la variable binômiale) à une variable continue (la variable nor- 
male}. CGraphiquement, il correspond à l'écart nécessaire pour compenser les 
débordements de la variable binômiale discrète par rapport à la loi normale 
(zones hachurées) (Figure 9.16). 


Figure 9.16 : Rôle du facteur correctif 


L'exactitude de l'approximation de la loi binômiale par la loi normale est 
difficile à évaluer, Mais un nombre important d'études empiriques (Mosteller 
et al. 1970, p. 290} montre que plus la moyenne 4 = np est éloignée des 
valeurs extrèmes O0 et n, plus l'approximation est bonne. L'erreur maximale de 
l'approximation d'une probabilité binômiale est de l'ordre de 0,011 quand la 
movenne u est à au moins 3 des valeurs extrèmes 0 et n. L'erreur maximale 
correspondante pour l’approximation d'une probabilité binômiale cumulée est 
de l’ordre de 0,025. 


9.4.7 Théorème central limite 


Le théorème De Moivre-Laplacæ et l'approximation de la loi binômiale par la 
loi normale sont en fait des cas particuliers d'un théorème plus général appelé 
théorème central limite, qui établit le lien entre la loi normale et une grande 
classe de lois de probabilité quand le nombre d'observations tend vers l'infini. 
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Le théorème central limite est l'un des théorèmes les plus importants en 
statistique. Il justifie l'importance accordée à l'étude de la loi normale. 

Soit X,,X2,...,X, une séquence de variables aléatoires indépendantes ayant 
chacune une loi de probabilité fixe de moyenne x et de variance #? finie. Soit 
X,, la moyenne arithmétique de X1, X2,..., Xu. 

Nous pouvons démontrer que E(X,) = pet que Var(X,) = «*/n : 


E(X,) = Ë (= + : tx) 


1 
= TEA ++ X) 
Il 
= =E(Xi)+:.+E(Xn) 


Il 
= Ut +un) = He 


Var(X,) = Var (Xi ++ Xa) 


_ = Var(Xi) +...+ Var(Xn) 
1 
= ne Fo) 
1 4 
= 17. ra 
De plus c(Xn) = = 
E ni = Vn 
LDéfinissons la variable Z, : 
1 De. 
Zn = 
Mo 


La loi de probabilité de Z, tend vers une loi normale de moyenne D et de 
variance 1 quand n croît indéfiniment. L'importance de ce théorème réside 
dans le fait que la moyenne À, d'un échantillon aléatoire, issue de n'importe 
quelle distribution de moyenne y et de variance &° finie est approximativement 
distribuée selon une loi normale de moyenne u et de variance 7° In. 

Le théorème central limite précise donc que la probabilité : 


P (È > ) = 1 — Ÿ(z) 


rl 


approche la probabilité d'une variable aléatoire normale 1 — (x) ; et ceci pour 
n'importe quelle séquence de variables aléatoires indépendantes X1, Xo,...,X% 
de distributions identiques. 
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Exemple 9.7 Les quatre graphes de la figure 9.17 montrent schématique- 
ment comment la moyenne des variables indépendantes ayant une distribution 
spécifique (en l'occurence une distribution uniforme) converge vers une distrib- 
ution normale. 

Soit X1,Xs,...,X,. n variables aléatoires indépendantes ayant chacune une 
distribution uniforme. La moyenne des variables, quand n est grand, suit ap- 
proximativement une distribution normale. Plus précisément, on a approxima- 
tivement : 


= RE = N(0,1) 


où À = {(X1+:..+ X,)/n; u est la moyenne de À et æ/,/n son écart-type. 
Le résultat est garanti par le théorème central limite. 

La figure 9.17 montre que même quand n est petit, par exemple, égal à 3 ou 
4, l'approximation est bonne. La figure (a) compare La densité de la distribution 
normale centrée réduite avec la densité de la distribution uniforme sut l'intervalle 
(—V3, V3). C'est le cas n = 1. Les limites inférieure et supérieure —3 et 4/3 
ont été choisies de telle façon que la moyenne et la variance de la distribution 
uniforme correspondent avec celles de la distribution normale centrée réduite. 


Pour n = 2, on vérifie que y = 0 et w//n = 1/Y® et la densité de z est 
définie par : 


pee EU, VF <2< vi. 


La forme de La densité f(x} est triangulaire comme le montre la figure 9.17 


(b). 
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{a} Une variable uniforme (b}) Deux variables uniformes 
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Figure 9,17 : Convergence vers la distribution normale : 
cas des variables uniformes, 


Pour n = 4, la densité est définie par : 


(3+2)/16 -3<2<—1 
f(2)=4 23-2716 -1<z<1 
(3 — 2)°/16 1<zx:< 4. 


La courbe de la densité est représentée par la figure 9.17 (c). 
Pour nr = 4, la densité est définie par : 


(T2 + 2)4/54 DUB < 2 < —Y3 
((VI2+ 2) —-(V12+22)#/2)/54 —V3<z:<0 
((VT2- 2) — (VT2-22)/2)/54  0<2< V3 
(V12 — 2)°/54 VB < z<2V3. 


La courbe de densité est représentée par la figure 9.17 (di). 

On constate que mëéme pour des valeurs faibles de n telles que n = 3 ou 4, 
la courbe de densité s'approche vite de celle de la distribution normale corres- 
pondante. 

Le théorème central limite peut être aussi formulé d'une façon plus générale. 
En effet, dans des conditions d'application étendue, pour une séquence de vari- 
ables aléatoires indépendantes À, X2,...,Â4,, de moyenne j,,p4,...,1, et de 
variance +, "1-0 ” 04, la quantité : 


f{z) = 
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travaux et serait le premier à avoir généralisé le théorème aux cas de variables 
dépendantes. 


9,6 Exercices 


1. On considère deux variables aléatoires X et Ÿ, avec les espérances mathé- 
matiques E(X) = let E(Y) = 2 et les variances Var(X} = 1 et Var(Y} = 
5. On définit deux autres variables aléatoires : 
A = 2X+3Y 
B = X-—-1,5Y 


(a) Calculer E(A) et E(B). 
{b} Calculer E(AB). 

2. Une tombola comprend 1 000 billets. Une personne gagne le gros lot de 
500 Fr.; deux autres gagnent 100 Fr; cinquante autres billets gagnent 10 
Fr. 

(a) Quel doit être le prix du billet pour que le jeu soit équitable ? 


(b} Quelle est la probabilité pour qu'une personne qui a acheté 10 billets 
gagne le gros lot ? 


(c} Quelle est la probabilité pour que cette personne gagne au moins un 
lot T 


(d}) Sachant que cette personne a gagné deux lots, quel est son gain 
moyen ? 


3. On jette deux dés équilibrés : X1 représente le résultat du premier dé; et 
À: celui du deuxième. La valeur maximum des dés est indiquée par : 


X = max{ Xi, X2) 
et la valeur minimum par : 

Y = min( Xi, X). 
De plus, on définit : 


Z=5 


(a) Calculer l'espérance mathématique et la variance de X, de Ÿ et de 
F, respectivement. 
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{f) Si b= 24, pour quelles valeurs de a l'espérance mathématique de Y 
est égale à sa variance ? 


6. Soit X la variable aléatoire représentant le salaire mensuel d'un ouvrier en 
Cambésie, Dans ce pays, les salaires sont répartis d'une manière uniforme 
entre 1 500 et 2 500 francs par mois. 


(a) Quelle est la probabilité qu'un ouvrier quelconque reçoive un salaire 
mensuel entre 1 800 et 2 200 francs ? Quelle est La probabilité que le 
salaire se situe entre 1 500 et 1 900 francs ? 


(b} Quel est le salaire moyen ? Quel est le salaire médian ? 


7. La variable aléatoire X suit une loi exponentielle négative de paramètre 
À. 


(a) Montrer que la variance de X est égale à 7. 
{b} Trouver la moyenne et la variance de la variable 


F=AX. 


{c) Déterminer la fonction de répartition de Y'. 


8. Soit À une variable aléatoire qui suit une loi normale centrée réduite. En 
utilisant la table de Gauss, calculer les probabilités suivantes : 


9. Pour la même variable Z définie dans l'exercice précédent, trouver la valeur 
de & (k > 0) telle que : 


(a) P(0 < Z € k) = 0,4015 

(b) P(Z < k) = 0,8238 

(c) P(| Z |< &k) = 0, 5222 

(d) P(Z < —K) = 0,0359 

(e) P(| Z {> k) = 0,9680 

(f) P(O< Z < k) = 0, 4000 
P(Z > k) — 0,0500 
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Chapitre 10 


Échantillonnage et 
estimation 


Dans une étude statistique, un dénombrement complet de la population est 
très souvent pratiquement impossible, soit parce que la population totale est 
inconnue, soit parce qu'elle comprend beaucoup trop d'individus pour qu'une 
telle étude soit complètement réalisable, Toutefois, le but d'une étude statistique 
est d'obtenir des connaissances sur l’ensemble de La population. Qr, si une étude 
sur l'ensemble de la population est difficilement envisageable, il nous faut malgré 
tout trouver d'autres movens pratiques d'y parvenir, Un moyen efficace est de 
procéder à un échantillonnage, qui consiste à choisir parmi les éléments de la 
population un certain nombre d'unités pour lesquelles nous obtiendrons des 
observations. 

Si l'échantillon étudié est bien choisi, les observations permettront d'acquérir 
les connaissances voulues sur la population à étudier avec un degré spécifié 
de précision. Le but de ce chapitre est de présenter les différentes méthodes 
d'échantillonnage et d'estimation. 
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10.1 Échantillonnage et représentativité 


L'utilité de l'échantillonnage peut être illustrée par l'exemple suivant. Un jar- 
dinier possède deux millions de graines pratiquement identiques, qui donnent 
soit des fleurs blanches, soit des fleurs roses. Ce jardinier désire connaître d'a- 
vance le pourcentage de fleurs blanches que ces deux millions de graines pro- 
duiront, afin d'être en mesure de les vendre sans tromper ses clients. Nous 
voyons d'emblée que s'il veut être absolument certain du type de fleurs produit, 
il sera obligé de semer toutes les graines afin d'observer le nombre de fleurs 
blanches et de fleurs roses. Or, s'il procède de cette manière, il n'aura plus 
aucune graine à vendre ! Dans ces conditions, la solution réaliste est d'effectuer 
un échantillonnage. Ainsi, le jardinier prélèvera un échantillon bien choisi de 
quelques graines parmi les deux millions de graines disponibles, il les sèmera 
et observera le nombre de fleurs blanches et de fleurs roses. Sur la base de ses 
observations, il fera une estimation du nombre de fleurs blanches et de fleurs 
roses parmi les deux millions de graines. 

Dans ce genre de raisonnement, on généralise à l'ensemble de la populs- 
tion les connaissances acquises sur la base de quelques observations. Ce type 
de raisonnement est appelé raisonnement inductif. On ne peut pas être ab- 
solument certain de notre prédiction, puisque l’on ne considère qu'une fraction 
seulement de La population totale, aussi surgira-t-il généralement un écart entre 
les observations faites sur l'échantillon et celles effectuées sur la totalité de la 
population. Mais si l'échantillon est choisi de façon scientifique, il est possible 
de faire une évaluation probabiliste, c'est-à-dire d'indiquer dans quelle mesure, 
ou avec quelle marge d'erreur le résultat obtenu à partir de l'échantillon est 
valable pour l'ensemble de la population. 

Afin que les conclusions tirées à partir de l'échantillon soient également va- 
lables pour la population, il est essentiel que les éléments de l'échantillon soient 
représentatifs de la population dans un vœu précis de représentativité. Cette 
notion de représentativité est essentielle quant au choix de la méthode d'échan- 
tillonnage. Il est très difficile, voire impossible de choisir un échantillon qui soit 
tout à fait représentatif de la population. Parfois, même pour des raisons d'ef- 
ficacité, la représentativité n'est recherchée qu'à deux niveaux fixes de l'échan- 
tillon, par exemple, dans les states. D'ailleurs, il serait faux de croire que les 
résultats obtenus à partir d'un échantillon posséderont exactement les mêmes 
valeurs que les caractéristiques de la population correspondante. Il faut donc 
accepter une certaine marge d'erreur, d'imprécision due à l'échantillonnage. 

À partir des résultats de l'échantillon, il est possible d'évaluer l'erreur com- 
mise et donc de déterminer la précision de l'estimation. 

Il faut remarquer que le résultat obtenu à partir d'un échantillon est parfois 
presque aussi précis que celui d'une étude complète de la population. Il est même 
possible que les résultats obtenus à partir de l'échantillon soient plus précis que 
ceux obtenus à partir d'une étude complète de la population, car en pratique, 
à part les erreurs d'échantillonnage, d'autres erreurs affectent les résultats sta- 
tistiques, ces erreurs non échantillonnales pouvant être plus importantes lors de 
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recensements que lors d'enquêtes par échantillons. 


10.2 Avantages et limitations de 
l’échantillonnage 


Le recueil des informations est une opération coûteuse, Les frais sont souvent 
proportionnels au volume de données à considérer. Plus ce volume est élevé, 
et plus l'enquête sera onéreuse. Par exemple, une fabrique de chocolat désire 
mochfer l'emballage de l'un de ses produits dans le but d'en accroître les ventes. 
Elle fait une enquête auprès de la population pour savoir quelles modifications 
devraient être apportées à l'emballage pour attirer davantage de clients. Si on 
décidait de mener une enquête sur la population totale, les frais engagés seraient 
alors probablement supérieurs à l'augmentation espérée du chiffre d'affaire. Il 
est préférable de procéder à un échantillonnage, ce qui permettrait de rendre 
l'enquête rentable. 

Le facteur coût n'est pas l'unique avantage de l'échantillonnage. Le temps 
constitue aussi un facteur important à prendre en considération. En effet, une 
enquête effectuée sur un échantillon de taille appropriée peut être lancée plus ou 
moins rapidement et les résultats dépouillés dans un délai relativement court, 
ce qui est parfois indispensable, Supposons qu'une entreprise ait développé un 
produit révolutionnaire, mais que d'autres entreprises concurrentes sotent aussi 
dans la course pour le lancement d'un produit semblable sur le marché, Cette 
entreprise désire savoir dans quelle mesure son produit attirera les clients, car 
les frais de mise sur le marché sont considérables. Si un concurrent la prend 
de vitesse, son produit n'aura plus aucune chance de se faire rapidement une 
place sur le marché, compromettant d'autant la rentabilité de l'opération. Dans 
ce cas, une étude sur la population totale exigerait beaucoup trop de temps. 
Il est donc nécessaire pour cette entreprise de procéder à un échantillonnage 
qui permettra d'obtenir des informations dans un délai raisonnable, tout en 
admettant une précision suffisante. 

Un autre avantage de l'échantillonnage est sa plus grande flexibilité quant au 
choix des informations à obtenir. En effet, certains concepts et méthodes tels 
que le revenu et la consommation d'un ménage sont trop complexes pour les 
mesurer sur une population exhaustive, [Ils nécessitent des enquêteurs spécia- 
lisés pour recueillir les informations voulues. Le nombre d'enquéteurs qualifiés 
étant limité, il ne serait pas pratique d'envisager un recensement, c'est-à-dire 
un dénombrement détaillé et exhaustif, 

Cette contrainte est beaucoup moins stricte dans le cas d'un échantillon- 
näge, puisque le nombre nécessaire d'enquêteurs est moindre, souvent quelques 
dizaines ou centaines d'enquêteurs qualifiés suffisent. Pour la plupart des in- 
stituts de sondage, trouver ou former ce personnel n'est pas une tâche insur- 
montable. Compte tenu de la disponibilité d'enquéteurs compétents et du vol- 
ume de travail moindre que lors d'un recensement, il devient possible de su- 
perviser plus attentivement l'exécution des opérations effectuées sur le terrain 
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ainsi que le dépouillement des résultats. Un échantillon peut ainsi produire des 
résultats plus exacts que ceux qui seraient obtenus à partir d'un recensement. 
L'amélioration de la qualité globale des données est donc, dans beaucoup de 
cas, un autre avantage de la méthode d'échantillonnage. 


10.3 Méthodes d’échantillonnage 


On distingue deux grandes catégories de méthodes d'échantillonnage : 
- l’échantillonnage par choix raisonné : 


- l'échantillonnage aléatoire. 


+ Échantillonnage par choix raisonné 


Les méthodes d’échantillonnage par choix raisonné incluent diverses tech- 
niques qui consistent à construire l'échantillon sur la base d'informations con- 
nues relatives à la population étudiée. Ces méthodes comportent une part d'ar- 
bitraire ne permettant pas d'évaluer la précision des estimations, mais elles 
présentent dans certains cas des avantages de coût et de rapidité par rapport à 
la méthode de l'échantillonnage aléatoire. 

L'échantillonnage par choix raisonné est aussi appelé échantillonnage em- 
pirique. La méthode principale est celle des quotas. Selon cette méthode, 
l'enquéteur sélectionne les unités, en fonction de quotas qui lui sont donnés. 
Dans le cas d'une enquête auprès des ménages ou d'individus, ces quotas por- 
tent généralement sur des critères socio-démographiques tels que le sexe, l'âge 
ou la catégorie socio-professionnelle. Ils sont établis à partir de statistiques of- 
ficielles et visent à constituer un échantillon possédant la même structure que 
la population. Dans la limite des quotas, le choix des unités physiques qui fe- 
ront partie de l'échantillon est laissé à la discrétion de l'enquéteur dans la zone 
géographique attribuée. Le hasard intervient donc d'une façon limitée dans la 
sélection des unités de la population qui feront partie de l'échantillon. 

La méthode des quotas est très fréquemment utilisée par les entreprises 
privées en raison de ses avantages pratiques. En effet, sa mise en œuvre est 
rapide car il n'y a pas besoin de tester tous les éléments de la population pour 
effectuer l'échantillonnage. Elle ne nécessite pas de base de sondage, c'est-à-dire 
une liste exhaustive des éléments de la population considérée. En permettant 
un gain de temps, elle est moins coûteuse que les échantillonnages probabilistes. 
Toutefois, la sélection de l'échantillon n'étant pas basée sur des méthodes aléa- 
toires, il devient difficile d'évaluer objectivement 4 quel point l'échantillon est 
représentatif et de ce fait, il n'est pas possible de connaître la marge d'erreur 
des résultats obtenus & partir de l'échantillon même, 


+ Échantillonnage aléatoire 


L'échantillonnage aléatoire correspond à des méthodes de tirage de l'échan- 
tillon où chaque unité de la population a une probabilité positive et connue d'être 
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4. Déterminer l'étudiant correspondant à chaque nombre aléatoire choisi. 
Dans cet exemple, l'étudiant portant le numéro 26 sera choisi en premier ; 
ensuite l'étudiant 99 viendra s'ajouter à l'échantillon. L'étudiant 85 sera 
choisi en troisième, et ainsi de suite, jusqu'au numéro (M qui constitue le 
dixième membre de l'échantillon. 


Tableau 10.1 : Table de nombres aléatoires 


26 804 29 274 79 811 45 610 22 879 
90 720 96 215 48 537 94 756 18 124 
85 027 59 207 76 180 41 416 48 521 
09 362 49 674 65 953 96 702 20 772 
G4 590 (4 14 16 770 T9 237 82 158 


12 5938 T0 157 17 683 67 942 52 846 
89 051 27 999 88 513 35 943 67 290 
15 720 90 258 95 598 10 823 93 074 
12 069 49 901 08 913 12 510 64 899 
04 553 93 000 18 585 72 279 01 916 


10.3.2 Échantillonnage stratifié 


L'échantillonnage stratifié consiste 4 découper la population en strates ou 
classes homogènes par rapport à l'ensemble de La population puis à réaliser dans 
chaque strate un échantillonnage aléatoire simple. La méthode d'échantillonna- 
ge stratifié est généralement utilisée lorsque la population étudiée est hétérogène 
à certains égards. La stratification nécessite donc une connaissance préalable 
de la structure de cette dernière. 

On procède à l'échantillonnage stratifié pour plusieurs raisons. Par exem- 
ple, on a parfois besoin d'obtenir des résultats sur un sujet donné pour dif. 
férentes régions géographiques d'un pays (les différents cantons de la Suisse 
par exemple). Dans ce cas, on considère chacune des différentes subdivisions 
géographiques comme une strate et on procède à un échantillonnage aléatoire 
à l'intérieur de chaque strate. L'efficacité du plan de sondage est souvent une 
autre raison de recourir à une stratification de la population. Par exemple, on 
sait a priori que la production des entreprises diffère selon le nombre d'emplovés. 
Dans ce cas, si le but est d'obtenir une bonne mesure de la production totale 
des entreprises, il serait plus efficace de stratifer l'ensemble des entreprises selon 
leur taille et de procéder, par la suite, à des échantillonnages de tailles différentes 
dans chacune des strates. Une estimation de la production totale sera obtenue 
en calculant d'une manière appropriée La somme des estimations obtenues pour 
chaque strate. 

Un autre exemple est une étude sur la consommation du bois de chauffage 
dans le canton de Neuchâtel. Dans ce cas, il semble nécessaire de diviser la 
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population géographiquement entre le haut et le bas du canton, car nous savons 
a priori que la consommation de boïs est différente selon le lieu d'habitation dans 
le canton. Lorsque les deux strates sont définies, nous pouvons alors choisir à 
l'intérieur de chacune d'entre elles, un échantillon aléatoire simple suivant la 
procédure décrite dans la section précédente. 

En général, on distingue l'échantillonnage stratifié proportionnel, (le 
nombre d'unités compris dans chaque strate est proportionnel à l'importance de 
l'effectif de la strate par rapport à la population totale} de l’échantillonnage 
stratifié non proportionnel. Cette dernière méthode est utilisée lorsque l'ho- 
mogénéité de La population n'est pas suffisante à l'intérieur des strates, 

Un exemple d'échantillonnage stratifié proportionnel est donné par une en- 
quête en agriculture lorsque la fraction de sondage est proportionnelle à la super- 
ficie totale des exploitations agricoles de chaque strate. Cette méthode donnera 
un échantillon qui contiendra relativement un plus grand nombre d'exploitations 
à grande échelle que de celles moyennes et petites. 


10.3.3 Échantillonnage par grappes 


L'échantillonnage par grappes consiste à tirer au hasard des ensembles d'uni- 
tés de la population, ou grappes, et ensuite à mener l'enquête sur toutes les 
unités de ces grappes. Les grappes sont souvent constituées par des unités 
de type géographique comme les quartiers d’une ville. La méthode consiste à 
diviser une ville en quartiers, puis à sélectionner les quartiers qui feront partie de 
l'échantillon. On mènera ensuite l'enquête sur toutes les personnes ou ménages, 
habitant dans les quartiers choisis. 

Il y a deux raisons principales de procéder à un échantillonnage par grappes. 

Dans beaucoup d'enquêtes, il se trouve qu'il n'existe pas une liste complète 
et fiable des unités de la population pour baser l'échantillonnage, et qu'il est 
excessivement coûteux de construire une telle liste. Par exemple, dans beaucoup 
de pays, y compris les pays industrialisés, il est rare que des listes complètes et à 
jour de la population, des logements ou des exploitations agricoles par exemple 
soient disponibles. Dans ces situations, l'échantillonnage peut s'effectuer à partir 
de cartes géographiques où chaque région urbaine est divisée en quartiers et 
chaque région rurale en groupement de terrains. Les quartiers et les superficies 
agricoles sont considérés comme des grappes et on travaille à partir de la liste 
complète des grappes à défaut d’une liste complète et à jour des unités de base. 
Ainsi, on échantillonne un nombre de grappes nécessaires à partir de la liste et 
ensuite on mène l'enquête sur toutes les unités de la grappe sélectionnée. 

Une autre raison de procéder à un échantillonnage par grappes est une ques- 
tion de coût. Méme quand il existe une liste complète et à jour des unités 
de base, il se peut que, pour des motifs d'ordre économique, il soit préférable 
de procéder à un échantillonnage par grappes. Ainsi, on diminue Les frais de 
transport, de recrutement d'enquéteurs dans différentes régions, etc. L'échan- 
tillonnage par grappes est plus avantageux si la réduction des frais d'enquête 
est plus importante que l'augmentation de la variance échantillonnale qui en ré- 
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Tableau 10.2 : Symboles statistiques 


paramètres de statistiques de 
la population l'échantillon 


moyenne Li T 

écart-type T 5 

variance a? Ca 

pourcentage T PF 

taille N nl 
Soit # un paramètre inconnu défini au sein d'une population et soit (#1, 
Ta, ..., En) un échantillon tiré de cette population. On appelle estimateur de 
# toute fonction statistique G{r1,72,...,7.) utilisée pour trouver une valeur 


estimative de #4. Voici quelques exemples de fonctions statistiques : 


- la moyenne : 
. Ty Es Here + Ta 
= ——— ; 
n 


- la moyenne pondérée : 


- Pit FRE TT PnEn 
à 


>: 
im 


- la variance : 


Pa RS Je 5 


Les deux premières fonctions servent 4 estimer la movenne y de la po- 
pulation tandis que la dernière fonction sert À estimer la variance o° de la 
population. 

La moyenne arithmétique Æ, de même que la moyenne pondérée #, et la 
variance s° nous fournissent un seul point comme estimation du paramètre pu, 
respectivement æ?, de la population. Une telle estimation est dite estimation 
ponctuelle du paramètre de la population. 

L'estimation ponctuelle d'un paramètre consiste donc à évaluer la valeur du 
paramètre de la population à l'aide d'une valeur unique prise dans un échantil- 
lon. 

Pour évaluer la précision d'un estimateur, il est d'usage de construire un 
intervalle de confiance autour de cet estimateur qui s'interprète comme une 
marge d'erreur. 

Dans ce chapitre, nous traitons les différentes méthodes d'estimation ponc- 
tuelle ainsi que les qualités nécessaires d'un estimateur. L'estimation par inter- 
valle de confiance fera l'objet du chapitre 11. 
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1_ n(À, Ve nee ” Hi) T n(X, on pu)? 


DA) —- EX, — un)? +n(Ân — u}° 
= SX -u) nf, - y}. 


Nous avons alors : 


E(S?) = E (: > (x - 2,}) 
= E ( S (x — K}° = (X = p}) 
= LE (Ex - u}?) - E(Â: - a) 


Il = 
= =) EUX: L un}? _ EX Xn = u)° 
= VariX;)- Var(X,) 


 ] 
e 
= em — 
n 
n — I 
— *. 
rl 


Par conséquent, pour que l’estimateur de la variance a? soit non biaisé, il 
faut ajuster S? par le facteur (n — l}fn : 


s? = 


L , 
— DA - Ka. 


i=] 


Nous avons alors un nouvel estimateur pour la variance qui est non biaisé : 


ra 


10,5.2 Estimateur efficace 


Méme si un estimateur est sans biais, 1l fournira en principe des estimations 
différentes de la valeur exacte du paramètre. À chaque échantillonnage, il est 
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souhaitable de minimiser cette différence afin de maintenir une certaine stabi- 
lité d'estimation. C'est ainsi que l’on définit une nouvelle propriété : de deux 
estimateurs sans biais de 6, l'un sera plus efficace que l'autre si sa variance 
est plus petite. Ainsi, si #1 et ts sont deux estimateurs sans biais de # et sl 
Var(ti} < Var(t:), alors ti est plus efficace que ts. 

Soient X1,X2 et X3 trois variables aléatoires indépendantes ayant chacune 
une loi de probabilité de moyenne u et de variance o° finie. Soient À, et Às 
deux estimateurs sans biais de La moyenne définis de la façon suivante : 


. x 
X, = X1 + Ko + Xa 
3 
= À + 2%X3 + 3Xs 
Xp — a 


Nous allons démontrer que X, est plus efficace que X, : 


Var(X,) = Var (£ ne +) 
1 
= =(Var(X1) + Var(X2) + Var(X3)) 


Lie) 


PARA SIE MX 
= (0 + +) = 207 
5 ) 9 


Var(?;) = Var (A) 


ü 
mx . (Var(X) + AFar(kKs) + 9Var(X5)} 


= L FA a 2 _ 14 3 
— see + 4er +ÿr)= 220. 


Var(X,) < Var( À). 


10.6 Estimation d’une moyenne 


Le problème d'estimation d'une moyenne peut s'énoncer ainsi : on est intéressé 
à mesurer par échantillonnage la movenne d'une certaine variable d'une popula- 
tion, par exemple, les dépenses mensuelles d'alimentation des ménages en Suisse. 
Désignons par y la valeur inconnue de ce paramètre ; c'est la movenne de la 
population. On cherche à trouver une estimation de y à partir d'un échantillon 
aléatoire simple tiré de la population. Soit Z l'estimateur obtenu en calculant 
la movenne empirique des valeurs obtenues de l'échantillon. La movenne # est 
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une valeur fixe pour un échantillon donné. Mais cette valeur peut varier suivant 
le choix de l'échantillon. Par exemple, si n est le nombre d'observations prises 
d'une population finie de taille Ÿ, il y aura & = C% échantillons possibles 
et autant de moyennes à calculer qu'il y a d'échantillons, ces moyennes sont 
dénotées par #1,%9,...,#4. Dans ce cas, # est une des valeurs de la variable 
aléatoire X dont les valeurs possibles sont #;,,%9,...,7+. On évalue la justesse 
de Æ comme estimateur de y: en examinant les propriétés de la distribution de 
£ sur l’ensemble des échantillons de même taille qu'on aurait pu tirer de la 
population. On appelle cette distribution la “distribution d'échantillonnage de 
la moyenne”. Elle permet de faire le lien entre la moyenne observée dans un 
échantillon, Æ, et la movenne correspondante de la population, y. 


10.7 Distribution d’échantillonnage des 
moyennes 


Intuitivement, nous savons que la moyenne de l'échantillon particulier Æ né 
correspondra pas exactement à la moyenne de la population 4 que nous désirons 
connaître. Toutefois, la valeur calculée sur l'échantillon peut nous donner une 
idée approximative de la valeur de la population. 


Si nous considérons plusieurs échantillons, par exemple deux échantillons 
tirés de la méme population, nous pourrons calculer pour chacun la moyenne 
de l'échantillon. Ces moyennes ne seront en effet probablement pas égales entre 
elles. La variation existant entre les différents échantillons est appelée variation 
d'échantillonnage : elle donne de l'information sur la précision de l'échantillon- 
nage. 

Si nous avons une population composée de 12 magasins, et que nous désirons 
prélever un échantillon aléatoire sans remise de 3 magasins, nous aurons 


121 


en — TA = 220 échantillons possibles. 


D'une facon générale, si nous voulons choisir un échantillon de taille n dans 
une population de taille finie N, nous aurons : 


N! 
CR = 


= Tax Possibilités différentes. 


Supposons qu'une étude concernant le prix d’un article particulier dans les 
12 magasins est envisagée ; les prix nous sont donnés dans le tableau 10.4 ci- 
dessous : 
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Tableau 10.3 : Prix d'un article dans différents magasins 
“Nodu magasin Prix 
30,50 
32,00 
37,50 
30,00 
33,00 
36,00 
34,50 
33,00 
35,00 
10 32,50 
11 35,00 
12 33,50 


DS O0 |] EE On dE OO ES 


Prenons un échantillon au hasard composé des magasins N° 1, 5 et 7. 
La moyenne arithmétique des prix sera : 


= 30, 50 + 43, 00 + 4, 50 
= —————— 


3 = 32,66. 


Pour un autre échantillon qui comprend les magasins 3, 6 et 11, nous aurons 
comme moyenne : 


__ 97, 50 + 36, 00 + 35, 00 


3 3 


= 36, 16. 

On constate que l'estimation est différente suivant l'échantillon : Æ1 et #2 
sont deux valeurs possibles de la variable aléatoire X qui suit une loi de prob- 
abilité qui est déterminée par la distribution des moyennes arithmétiques de 
l'ensemble des échantillons possibles {71,%2,...,7220!. Elle est appelée la dis- 
tribution d'échantillonnage des moyennes. Dans cet exemple, elle s'obtient 
selon les étapes suivantes : 


+ énumérer les 220 échantillons possibles de 3 magasins ; 
e calculer leur moyenne respective ; 
« ranger les moyennes obtenues sous forme d'une distribution de fréquence. 


Le résultat est la distribution d'échantillonnage des moyennes de tous les 
échantillons possibles de taille n = 3 appartenant à la population donnée. Elle 
est donnée dans le tableau 10.4. 
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Tableau 10.4 : Distribution d'échantillonnage des moyennes 


Intervalles Fréquences 
des moyennes 


30 - 31 1 
31 - 32 16 
32 - 33 51 
33 - 34 72 
4 - 35 Ets] 
35 - 36 2 
36 - 37 3 


ILest important de bien distinguer entre les différentes notions de distribution 
traitées ici : la distribution de la population et la distribution d'échantillonnage. 


« Distribution de la population 


(a) 


TT de (b} 
te do 


Figure 10.1 : Distribution pour une population 


La distribution de la population est la distribution de la variable à étudier, 
par exemple, le prix d'un article dans un magasin, le revenu d'un ménage dans 
un canton. La distribution de la population peut avoir une forme quelconque. 
Présentées dans la figure 10.1, les distributions les plus courantes sont uni- 
modales de tvpe symétrique (a), étirées à droite (b}, ou étirées à gauche (c). 
Ceci n'exclut pas toute autre forme de distribution telle que bimodale, multi- 
modale, discontinue, etc. 

Lorsque nous tirons un échantillon parmi les éléments de la population, nous 
pouvons représenter les observations par un histogramme. Si nous tirons deux 
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Tableau 10.5 : Énumération des échantillons possibles 


Échantillons Données Moyennes (A — pe)? 
échantillonnales  d'échantillinnage 
À. 
il 1-2.3 30,50 32,00 37,50 33,33 0,538 
2 1-2-4 30,50 32,00 30,00 30,83 3,121 
J 1-2-5 30,50 33,00 33,00 31,83 0,588 
219 9-11-12 35,00 35,00 43,50 44,50 0,918 
220 10-11-12 32,50 35.00 43,50 33,67 0,016 


Deux propriétés de la distribution échantillonnale sont à mentionner : 


e Sin est suffisamment grand, la distribution échantillonnale des moyen- 
nes est approximativement normale, quelle que soit la distribution de la 
population {x et fini). 


e Si la population est distribuée “normalement”, la distribution d'échan- 
tillonnage des moyennes est aussi une distribution “normale”, quelle que 
soit La taille de l'échantillon. 


eirs-33 54 ü 


Figure 10.3 : Distribution pour les moyennes des échantillons 


Nous allons à présent étudier la relation existante entre la distribution d'é- 
chantillonnage des moyennes ét la distribution de la population. Cette étude 
va nous permettre par la suite de juger de la proximité de la movenne d’un 
échantillon avec celle de la population. 
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_2 — (80,50 — 33,54)? + (32 — 33,54)? +. + (33, 50 — 33,54)? 
_ 12 
52,73 


12 
Ainsi, en utilisant la formule précédente, on obtient l'erreur-type pour un 
estimateur basé sur n = 3 magasins : 


= 4,39. 


2 439 12-3 

Ta ES + NE 

À 3 12—1 
= 1,20. 


On constate que la valeur obtenue (+ —],20) est égale à l'arrondi près à celle 
calculée précédemment directement à partir de l’ensemble des 220 échantillons 
possibles. 

Donc en connaissant les paramètres pet de la population, nous sommes en 
mesure d'évaluer les caractéristiques correspondantes de la distribution d'échan- 
tillonnage des moyennes, c'est-à-dire pu et ox. 


« Estimation d'une proportion 


Si, dans une chaîne de fabrication, nous devons estimer la proportion de pièces 
défectueuses, le paramètre à estimer n'est plus une moyenne mais un pourcen- 
tage. 

Comme nous l'avons défini dans La section 10.4, nous utilisons le symbole 
F pour représenter la proportion des unités possédant un certain attribut au 
sein d'une population. Le symbole F est utilisé pour représenter la proportion 
correspondante au sein de l'échantillon. La valeur de P est obtenue à partir de 
la fraction suivante : ”. 


P=—, 


rl 


où X est le nombre d'unités de l'échantillon possédant le caractère étudié, et n 
est le nombre total d'unités de l'échantillon. 

La valeur de P donne une estimation de la valeur inconnue x. Lorsque 
la taille des échantillons est suffisamment grande et que les échantillons sont 
indépendants, la distribution d'échantillonnage de PF suit une loi normale. 

Les propriétés de l'estimateur P s'étudient à partir de la moyenne u, et 
l'écart-type æ£? de la distribution d'échantillonnage. 


« Relation entre ph et 7 


Reprenons à titre d'exemple la population représentée par les 12 magasins de 
l'exemple précédent (Tableau 10.3) et examinons la proportion des magasins 
ayant un prix moins élevé ou égal à 32 Fr. Comme le montre le tableau 10.6, 
NOUS AVONS : 
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Tableau 10.6 : Magasins avant un prix moins élevé ou égal à 32 Fr. 
N° magasin Prix Prix < 32 


1 40,50) oui 
2 32 oui 
s: 7 ul) nor 
4 30 oui 
à 43 non 
G si non 
T 4,50 non 
a] sx non 
9 bi] non 
10 32,50 non 
11 30 non 
12 343.00 non 
nombre de oui 3 
Dee un ui {, 25. 


Dans le tableau 10.7, nous pouvons relever les différentes proportions échan- 
tillonnales de l’ensemble des échantillons possibles de taille n = 4 Il y en a 
220 = Ch. 


Tableau 10.7 : Proportions échantillonnales 


Échantillons Données Proportions p, 
1. 1-23 oui-oui-non 0.66 
2. 1-2-4 oui-oui-oui L 
3. 1-2-5 Oui-OuI- non 0,66 
219. 9-11-12  non-non-non 1] 
2230. 10-11-12 non-non-non Ü 


La moyenne des 2230 proportions échantillonnales se calcule à partir du 
tableau 10.7 comme suit : 


_ 0,66+1+0,66+---+0+0 
Br 220 
55 


335 = À, 25. 
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Nous vérifions donc que le pourcentage de la population (0,25) est égal à 
la movenne de la distribution échantillonnale des proportions calculée ci-dessus 
(0,25). Nous avons donc ph = #. Ceci mdique que le résultat obtenu à partir 
d'un échantillon aléatoire quelconque sera en moyenne égal à la valeur recherchée 
de la population. 


« Relation entre æp et y 


L'erreur-type de l'estimateur P est obtenue à partir de La variance de la dis- 
tribution d'échantillonnage %. Par définition, celle-ci est égale à la moyenne 
des écarts au carré entre les proportions d'échantillonnage et la moyenne de la 
distribution d'échantillonnage des proportions. 

Dans l'exemple des 17 magasins, nous obtenons : 


: 2 = Z , 2 4 2 
es (0,66 — 0,25}* + (1 — 0,25)* + + (0 — 0,25)* + (0 — 0,25) 
22) 
_ 11,25 
_ 220 
), 05. 


Il 


Comme dans le cas de æ & et, ce calcul peut être simplifié considérablement 
en notant la formule liant la variance «2? de la distribution d'échantillonnage de 
la population originale. On a 


9 et N-n 
Thp=—: 
N - 1 


et comme dans le cas d'une proportion e? = x{1 — x}, on obtient : 


à _ Fr) Mn 


EP T ni N — 1 
2 0,25-0,78 12—-3 
Th = mm : 
à 3 191 
] 
= u—— = {), Of. 
16:11 , 


Ce résultat correspond bien à celui obtenu directement à partir des valeurs 
des 230 échantillons (Tableau 10.7). 

De mème que pour le calcul de l’écart-type de La distribution d'échantillon- 
nage des moyennes, la facteur correctif présenté ci-dessus n'est significatif que 
dans le cas d'une population finie, Il peut étre supprimé lorsque la population 
est infinie ou suffisamment grande. 
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« Loi des grands nombres 


La loi des grands nombres est le fondement des méthodes d'échantillonnage 
aléatoires. En effet, si on observe des éléments d'une population ayant une 
movenne x, plus le nombre d'observations augmente, plus les écarts entre les 
observations et 1 se trouvent compensés par leur masse. C'est ainsi que la valeur 
de La véritable moyenne peut être approchée par l'échantillon. 

La loi des grands nombres joue un rôle fondamental dans les applications de 
la théorie des probabilités. Le fait que des grandeurs aléatoires se comportent 
dans certaines conditions pratiquement comme des grandeurs constantes permet 
de les utiliser pour prédire avec un certain degré de certitude des résultats de 
phénomènes aléatoires. 

L'utilisation de la loi des grands nombres permet non seulement de faire des 
pronostics scientifiques dans le domaine des phénomènes aléatoires, mais encore 
d'estimer la précision de ces pronostics. 

Dans cette section, nous étudierons d'abord l'inégalité de Tchebychev qui 
nous permet de mieux comprendre le théorème de la loi des grands nombres et 
d'en tirer des conclusions sur le choix de la taille d'échantillon qui assurerait un 
certain degré de fiabilité des résultats. 


« Inégalité de Tchebychev 


L'inégalité de Tchebychev sert À évaluer Les probabilités des écarts à la moyenne. 

Soit une distribution ayant la moyenne nu et la variance #?, toutes deux de 
valeur finie. Selon Tchebychev, toute variable aléatoire X de paramètres u et 
a? satisfait à l'inégalité suivante : 


F 
P{IX-uize} < m1 


ou l'inégalité équivalente : 


a? 

PIX -pul<e} > Pr 
Prenons un exemple pour illustrer l'inégalité de Tchebychev. Considérons 
une fabrique de tuyaux. Soit X la variable aléatoire représentant le diamètre 

d'un tuyau quelconque. Dans cette fabrique, les tuyaux produits ont une moyenne 
de diamètres 4 égale à 30 centimètres, et un écart-type « = 4/0, 64 centimètres. 
À l'aide de l'inégalité de Tchebychev, nous calculons que la probabilité d'une 

déviation de plus de 3 centimètres par rapport à la moyenne est : 


4 
P{IX-30/>3) < “0,071 
indiquant que la probabilité d'obtenir une déviation de plus de 3 centimètres 
est au maximum de 0,071. 
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L'inégalité de Tchebychev peut aussi s'exprimer sous une forme alternative 
en remplaçant le terme € par le produit € = t-#, ce qui donne : 


1 
P{X-ul2t.0) < % 


ou 
BIN = Ée) > 1-7. 

Dans cette expression, æ est l'écart-type de la variable X et # est un paramètre. 
Connaissant æ, on peut donc toujours choisir t assez grand pour que la proba- 
bilité de trouver X à l'intérieur de l'intervalle y + ter soit aussi proche de 1 que 
l'on désire. 

Ce résultat est très important car il nous permet de calculer la convergence de 
la moyenne empirique d'une variable aléatoire vers son espérance mathématique. 
En effet, soient n variables aléatoires indépendantes X, Xa, ..., X, chacune 
suivant la même loi de probabilité d'espérance mathématique et de variance 
æ*, la moyenne empirique s'exprime par : 


ma 


Appliquant l'inégalité de Tchebychev à X, dont l'espérance mathématique 


L | El 
est à et la variance ©, on obtient : 


= a 
PLU SAT © Le 
{l ml<e} s 
Ceci indique que pour un nombre d'observations n suffisamment grand, l'é- 
cart entre la moyenne empirique À, et la movenne y théorique est faible avec 
une probabilité s'approchant de I, Il est clair que plus n est grand, plus la 
movenne empirique X, est proche de la moyenne théorique. 


e Taille de l'échantillon 


L'inégalité de Tchebychev, exprimée en fonction du nombre n d'observations, 
énonce que l'on peut toujours trouver une valeur n telle que la probabilité que 
À, soit inclu dans un intervalle de u + € soit aussi grande que l'on veut. 

Prenons comme exemple une loi de probabilité ayant comme variance a? = 1. 
On se demande quelle doit être la taille minimale de l'échantillon pour avoir une 
grande probabilité (par exemple 0,95) que l'écart entre la moyenne empirique 
X, par rapport à la moyenne réelle u soit faible (par exemple € = 0, 5) ? 

Ceci s'exprime en termes mathématiques par la question suivante : trouver 
n tel que : 


P{|Xi-ul<0,6} > 0,95 


P{LXh-ul<0,5 > 10,05. 
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En comparant cette dernière expression avec l'inégalité de Tchebychev : 


P{IXax-ul<e} > 1- 


nous obtenons l'inégalité suivante : 


1 

a  — 
0,05 2 n°0,5? n-0,25 

d'oiû 

L 
———— > 80. 
82 005.02 QU TE 

Nous avons ainsi démontré qu'il existe toujours une valeur de n assez grande 
pour pouvoir tirer des conclusions valables sur la population à partir d'un échan- 


tillon et que la précision de ces conclusions peut être mesurée en termes de 
probabilités. 


« Autres méthodes d'estimation 


Dans les sections précédentes de ce chapitre, la moyenne et la variance de La po- 
pulation ont été estimées en calculant la moyenne et la variance des observations 
de l'échantillon. Cette façon de procéder constitue une méthode d'estimation 
parmi d’autres. Elle est appelée la méthode des moments. 


e Méthode des moments 


L'idée de base de la méthode des moments est simplement d'estimer la moyenne 
de la population par la moyenne arithmétique de l'échantillon. (Le nom de cette 
méthode découle du fait que la moyenne est parfois appelée moment d'ordre 
1.} En prolongeant cette idée, on peut également estimer la variance de la 
population par la variance de l'échantillon. 


e Méthode des moindres carrés 


Une autre méthode d'estimation qui s'applique aux paramètres de tendance 
centrale consiste à considérer les écarts entre le paramètre à estimer et chacune 
des observations, et de choisir comme estimateur la valeur du paramètre qui 
minimise la somme des carrés de ces écarts. 

Soit X3,...,X,, un échantillon aléatoire de taille n tiré d'une population de 
moyenne u, inconnue. La somme des écarts au carré entre les observations et la 
moyenne est exprimée par : 


Lu) = Ÿ (Xi - p}°. 
=] 
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10.9 Exercices 


1. Il a été décidé de faire une enquête sur les dépenses et les revenus des mé- 
nages d'un pays. On a le choix entre un recensement de tous les ménages 
et une enquête auprès des ménages limitée à un échantillon de 10 000 mé- 
nages. Quels sont les avantages et les inconvénients de chaque méthode ? 


2, Un échantillon aléatoire simple de 25 appartements a été tiré dans une 
ville contenant exactement 1 247 appartements. Le nombre de pièces par 
appartement de l'échantillon est le suivant : 


D © EE = Ên 
CN ds Ci du 
= LE EH 
D OO dd OO Ce 
en ES lu =] mi 


(a) Évaluer le nombre approximatif de pièces par appartement dans l'en- 
semble de la ville. 


(b} Calculer l'écart-type de cette estimation. 


(c} Calculer la probabilité que l'estimation faite dans (a) soit proche, à 
5% près, du nombre réel de pièces par appartement pour la ville. 


3. On procède à un échantillonnage aléatoire simple de trois objets à partir 
d'une population de 6 objets dont les valeurs sont : 10,5, 7,2, 6,8, 11,7, 
5,4 et 10,8. 


(a) Calculer la valeur moyenne de la population, ps. 
(b) Établir la liste des valeurs des 20 différents échantillons possibles. 
{c) Calculer la moyenne de chaque échantillon. 


Montrer que la m ne des movennes antillonn obtenues dans 
d que la moyen oy échantil ales ob d 
c]) est égale à u, la movenne de la population. 
gale à y, 1 de la populati 


4. En utilisant le tableau suivant qui contient 50 nombres aléatoires de 5 
chiffres, on désire tirer un échantillon de 8 nombres aléatoires entre 0 et 
12. 
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26 804 
90 720 
85 027 
09 362 
64 590 


72 598 
89 051 
15 720 
12 069 
CH 553 


29 273 
96 215 
59 207 
49 G74 
04 104 


70 157 
27 999 
90 258 
49 901 
93 ON) 


79 811 
48 537 
T6 180 
65 953 
16 770 
17 683 
88 513 
95 598 
DS 913 
18 585 


45 610 
94 756 
41 416 
96 702 
79 237 


67 942 
39 943 
10 823 
12 510 
T2 279 
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22 818 
18 124 
48 521 
20 772 
82 158 


92 546 
67 290 
93 074 
64 899 
01 916 


(a) Examiner les deux premiers chiffres de chaque nombre du tableau en 
allant de colonne en colonne et tirer les 8 premiers compris entre OÙ 


et 12. 


(b} Calculer la moyenne et la variance de ces 8 valeurs. 


(c) Comparer les résultats obtenus dans (b} avec la moyenne et la vari- 


ance de tous les chiffres de O 4 12. 


5. Une grande ville compte ? 400 entreprises dont : 1 600 petites entreprises, 
GOÛ moyennes et 200 grandes. Pour évaluer le nombre total d'ouvriers tra- 
vaillant dans les entreprises de cette ville, on choisit un échantillon stratifié 
de 36 entreprises avec un tirage de 1/100 parmi les petites entreprises, 1/50 
parmi les moyennes et 1/25 parmi les grandes. 


(a) Quelle est la répartition des petites, des moyennes et des grandes 


entreprises dans l'échantillon stratifié ? 


(b} Quelle aurait été la répartition attendue si l'échantillon des 36 entre- 
prises était un échantillon aléatoire simple ? 


{ec} Un échantillon stratifié donne les résultats suivants : 


————————————————————.s 
Nombre d'ouvriers 


Petites entrep. 
2; 10 ; 25 ; 43 
5 ; sl ; 14 ; 25 
14: 2:37 ; 29 


14,8; 24,4 


Moyennes entrep. 


Grandes entrep. 


80 ; 57 ; 90 ; 193 268 : 907 ; B5Û 
75: 59: 128: 162 645 ; 1 993 ; 322 
96 ; 79 ; 167 ; 60 153 ; HT 


Quelle est une estimation du nombre moyen d'ouvriers dans une pe- 
tite entreprise ? dans une moyenne ? dans une grande ? 


(d) Sur la base des moyennes obtenues dans (c}, trouver une estimation 
du nombre total d'ouvriers dans les petites entreprises de la ville. De 
même, dans les moyennes et dans les grandes entreprises. Calculer le 
nombre total d'ouvriers tous types d'entreprises confondus. 
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(e) Si les résultats du tableau (c) provenaient d'un échantillon aléatoi-re 
simple, quelle aurait été l'estimation du nombre total d'ouvriers dans 
cette ville ? Comparer avec l'estimation obtenue dans (d} et signaler 
laquelle des estimations devrait être plus précise et pourquoi. 


6. Soit X une variable aléatoire qui suit une loi normale de paramètres nu = 3 
et o = 1. On écrit X = N(3,1). Sur la base d'un échantillon de taille n, 
Atos Xh ï 


(a) Calculer la moyenne de la distribution d'échantillonnage de : 


À + À +: + Ân 
rè 


X — 


(b) Calculer la variance de la distribution d'échantillonnage de X. 


(c) Pour n = 9, dessiner la courbe de densité de X et celle de À sur un 
même graphique. 


7. Soit À une variable aléatoire ayant une distribution quelconque avec une 
moyenne y = 5 et une variance o°7 = 3. Utiliser l'inégalité de Tchebychev 
pour compléter les expressions suivantes : 


a) PO X-u|<4)27 
a 
(ce) POLX£S)£ 7? 
(d) PUX—-5/>k)<09% s Ek>? 


8. Sachant que la distribution de X est normale, 


(a) Calculer les probabilités (a}, (b}) et (c) de l'exercice précédent et 
comparer Les résultats avec les inégalités correspondantes obtenues 
dans l'exercice $. 


{b) Répéter (a) dans l'hypothèse que la distribution de X est uniforme 
sur l'intervalle (2, 8). 


9. Il a été évalué que chaque client de restaurant dans le canton dépense en 
movenne 12 francs pour un diner, avec un écart-type de 4,5 francs. Un 
restaurant pris au hasard a sélectionné un échantillon des additions de 50 
clients. 


(a) Utiliser le théorème central limite pour calculer la probabilité que la 
valeur movenne des 50 additions soit plus élevée que 13 francs. 


(b} Cent restaurants ont fait l’objet de la même étude. Ce qui veut dire 
que chaque restaurant a dû choisir Les additions de 50 de ses clients 
et indiquer le montant moyen. Combien de restaurants devraient en 
principe signaler un montant moven de 13 francs ou plus ? 
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10. Un certain pourcentage d'avions sont en retard au départ ou à l'arrivée 
dans un aéroport fréquenté d'une grande villes européenne. Cet aéroport 
reçoit exactement 520 vols par jour. Pendant une durée de 14 jours, le 
nombre quotidien des vols en retard a été enregistré comme suit : 


80 125 91 112 F3 141 138 
g2 99 87 134 62 152 141 


(a) Quel est le pourcentage de vols en retard quotidiennement, pour 
chaque jour des deux semaines à l'étude ? 


(b} Obtenez une estimation du pourcentage des vols en retard pour un 
jour quelconque dans cet aéroport en calculant La valeur moyenne des 
pourcentages obtenus dans (a). 


{c}) Quelle est la variance dé cette estimation ? 


11. Afin d'obtenir une estimation de la moyenne d'une population de taille 
infinie, un échantillon aléatoire simple a été tiré, donnant les 8 résultats 
suivants : 


45 18 114 63 79 451 32% 8 


(a) À partir de cet échantillon, calculer une estimation de la moyenne 
de la population x. Est-ce que la moyenne de l'échantillon est un 
estimateur non biaisé de la moyenne de la population ? 


{b} Exprimer la variance de l’estimateur utilisé dans (a), en fonction de 
la variance de la population æ*. 


(c) La valeur de 7° étant inconnue, calculer un estimateur de ce paramètre 
à partir des 8 observations de l'échantillon. 


(d} En déduire la valeur de l'écart-type de l'estimateur de la moyenne 
obtenue dans (a). 


12. Une enquête sur la lecture de journaux dans un pays comptant 32 quo- 
tidiens a porté sur un échantillon représentatif de 8 quotidiens. Pour un 
jour quelconque de la semaine, le tirage des 8 quotidiens de l'échantillon, 
exprimé en milliers, a été de : 


45 18 114 63 19 451 32% 8 


(a) À partir de cet échantillon, calculer le tirage quotidien d'un journal 
de ce pays. 

(b) Répondre aux questions (b),(c) et (d} de l'exercice précédent dans le 
présent contexte. En particulier, prendre note du fait qu'ici la popu- 
lation en question compte un nombre fini d'éléments (précisément 32 
éléments) alors que dans l'exercice précédent, le nombre d'éléments 
de la population était considéré comme infini. 
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13. 


14. 


15. 


Il est question de construire un échantillon aléatoire simple afin d'obte-nir 
une estimation de la moyenne y d'une population infinie dont la variance 
est eo? = 2, 


(a) Quelle devrait être la taille de l'échantillon pour que l'écart-type de 
l'estimateur de x soit inférieur à 0,20 ? 


{b} Utiliser le théorème central hrnite pour calculer la probabilité que La 
différence entre l'estimateur £ et la movenne de la population y en 
valeur absolue soit inférieure à 1. 


Pour obtenir une estimation de la valeur de la production moyenne d'une 
unité agricole par an dans le canton de Zürich, un échantillon aléatoire 
simple de 1 600 exploitations agricoles a été selectionné parmi les 20 540 
unités agricoles à Zürich. 


(a) L'écart-type de la valeur de la production des unités agricoles züri- 
choises étant de 2 000 francs par an, calculer la variance de la moyenne 
échantillonnale des 1 600 unités de l'échantillon. 


(b) Pour obtenir la même précision qu'à Zürich, quelle devrait être La 
taille de l'échantillon à Neuchâtel où le nombre total des unités agri- 
coles recensées est 8 430 7 (On supposera que l'écart-type de la valeur 
de la production des unités agricoles à Neuchâtel est le même qu'à 
Zürich.} 


Lans une étude où le coût d'observation est très élevé, on a décidé de ré- 
duire la taille de l'échantillon au minimum, avec deux observations seule- 
ment par échantillon. 


(a) Soit X5 et X2, les valeurs d'un échantillon aléatoire simple, démon- 
trer que l'estimateur non biaisé de la variance de La moyenne 7% 
est : ? 

(A1 — À2 
DRE ŒD 


(b) Quelle aurait été la valeur de 5? si l'estimation avait été faite sur la 
base de trois observations (A1, À et Ka) ? 


SIR DAVID R. COX 
(1924-) 


David R. Cox est né le 15 juillet 1924. Il 
a étudié les mathématiques à l'Université 
de Cambridge et a obtenu un doctorat en 
mathématiques appliquées à l'Université 
|” de Leeds. Il a travaillé par la suite aussi 
bien dans la recherche industrielle que 
dans les milieux académiques et de 
l'édition scientifique. De 1966 à 1988, il 
a té Professeur de statistiques à 
l'imperial College of Sciences and 
Technology de Londres, puis de 1988 à 
1994, il a enseigné au Nuffield College, 
à Oxford. 


David Cox est un éminent statisticien. Il 
a été consacré Chevalier en 1982 par la 
Reine d'Angleterre en reconnaissance de 
| ses contributions à la science statistique 
et a été nommé docteur honoris causa 

par de nombreuses universités en 
| Angleterre et ailleurs. 11 a également été 
| honoré comme membre illustre par 
plusieurs académies de sciences : 
1981-83, Président de la Royal Statistical Society, Président de la Société Bernouilli 
de 1973 à 1983 Président de l'Institut International de Statistique de 1995 à 1997. 


Par la variété des sujets qu'il a abordés et développés, le professeur D. Cox a 
profondément marqué sa profession. Il fut nommé Docteur Honoris Causa de 
l'Université de Neuchätel en 1992, 


Chapitre 11 


Intervalle de confiance 
d’une estimation 


La méthode d'échantillonnage aléatoire présentée dans le chapitre précédent 
permet de préciser les marges d'erreur des estimateurs, calculés à partir de 
l'échantillon lui-même. Cet aspect est crucial car une estimation sans indication 
du degré de précision est douteuse ; elle ne peut étre ni appréciée ni distinguée 
d'une valeur quelconque qui aurait été avancée sur la base de l'intuition ou d’une 
simple connaissance du sujet. 

Ce qui est remarquable dans la méthode d'échantillonnage aléatoire, c'est 
que l'échantillon contient non seulement l'information nécessaire pour obtenir 
une estimation de la quantité voulue, mais aussi celle nécessaire pour calculer le 
degré de précision de l'estimateur, Dans ce chapitre, nous abordons les méthodes 
pour déterminer la précision des estimateurs. 
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11.1 Méthode de construction d’un intervalle de 
confiance 


Soit # un paramètre à estimer de la population et T son estimateur à partir d'un 
échantillon aléatoire. On évalue la précision de T comme estimateur de 4 en 
construisant un intervalle de confiance autour de l'estimateur, qui souvent 
s'interprète comme une marge d'erreur. 

Pour construire cet intervalle de confiance, on procède, en terme général, 
de la manière suivante. À partir de la loi de distribution de l'estimateur T, on 
détermine un intervalle calculé sur la base de l'échantillon tel que la probabilité 
soit importante qu'il englobe la vraie valeur du paramètre recherché, Soit (T —e, 
T +e) cet intervalle et (1 — «) la probabilité d'appartenance, on peut dire que 
la marge d'erreur € est liée à & par la probabilité : 


PT -e<0<T+e)=1- ax. 


Le niveau de probabilité associé à un intervalle d'estimation est appelé 
niveau de confiance ou degré de confiance. 

L'intervalle, T — e < 8 < T'+e, est appelé intervalle de confiance de l'esti- 
mateur de # au niveau de confiance 1 — &. Prenons comme exemple à = 5%, 
l'intervalle de confiance du paramètre 4 à un seuil de probabilité de 95%. Ceci 
veut dire qu'en utilisant T comme estimateur de #, en moyenne, sur 100 échan- 
tillonnages, 95 fois l'intervalle construit de la façon indiquée comprendra la vraie 
valeur de l'estimateur et 5 fois il ne l'incluera pas. 

La quantité e de l'intervalle de confiance mesure la moitié de l'étendue de 
l'intervalle. Elle indique donc, dans un certain sens, la marge d'erreur de l'es- 
timateur. Un estimateur est d'autant plus efficace que, pour un niveau de 
confiance 1 — a donné, il conduit à un intervalle de confiance plus petit. 

Dans la suite de ce chapitre, nous étudierons l'intervalle de confiance relatif 
à l'estimation de # suivant la nature du paramètre 4 à estimer, la forme de la 
loi de distribution de l'estimateur T, la taille de l'échantillon et la connaissance 
ou l'ignorance de la variance de la population. 


11.2 Intervalle de confiance pour la moyenne 
d’une distribution normale 


Souvent, l'échantillon est utilisé pour estimer une moyenne # concernant la 
population, par exemple, la moyenne d'âge de la population, le prix moyen d'un 
litre d'essence ou la durée movenne de vie d'une marque de pile électrique, Dans 
ce cas, le paramètre à estimer est (donc # = u} et l'estimateur à partir de 
l'échantillon peut être la moyenne des observations, À = (X14+Xa+...+X,)/n, 
où n dénote la taille de l'échantillon. 

Si l'échantillon provient d'une population de distribution normale, nous 
avons vu dans le chapitre précédent que La variable aléatoire X, suit elle-même 
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une distribution normale de moyenne y et d'écart-type æ , que nous abrégeons 
par l'expression : 


X = N{u,ox). 


Suivant La démarche décrite dans la section précédente, il s'agit de trouver 
l'intervalle autour de u tel que : 


P(X -e<p<È+e)=1-a. 


La quantité e dépend de la nature de la variance de la population. Il se peut 
que des expériences préalables nous aient fourni une estimation de la variance 
de la population, Dans ce cas, la variance #? peut étre considérée comme 
connue. Dans le cas contraire, &* est inconnu et il faudra l'estimer sur la base 
de l'échantillon. Nous allons traiter séparément ces deux situations. 


11.2,1 © connu 


Quand l'écart-type æ de la population est connu, la valeur de € est égale à 
Zaja 0x. La valeur de z,,2 se lit dans la table de Gauss en fonction de la 
probabilité attribuée au paramètre «. On en déduit donc l'intervalle de confiance 
de l'estimateur de y, au seuil de probabilité 1 — « : 


X- Tag SH X + ZafaT &- 


Le raisonnement permettant d'aboutir à cette formule est le suivant. 

Étant donné que la moyenne échantillonnale Ÿ est distribuée selon une loi 
normale N(u,e +}, la variable aléatoire : 
_ À = 
.. 
est distribuée selon la loi normale centrée réduite NO, 1} (voir paragraphe 9.4.2). 
Nous avons : 


“A 


P(—tua < Z € £ap2) = 1 - à 
illustré par la figure 11.1. 


X — ji 
< Za/2) 


P(-zaya £ ZE &aa) = Pi-zaps < po 
X 

= Pfizer <X — jp < 25/20 $) 

= PIX — 2jang <-u< -X + 24;j20 3%) 

PA + 20208 BU À — 220%) 


= P(X — 2,e0x Su < + + 23/20 &). 


Il 


Ce dernier résultat donne : 


PIX - zap20g Sn < À +z20g)=1-a. 
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-£ alpha? Z alpha? 


Figure 11.1 : Distribution de Z et intervalle de confiance 


Les limites de l'intervalle de confiance pour y, à un niveau de confiance 1—& 
fixé à l'avance, sont donc : 


X— Za f2T $ et X + Zaf2TX: 


Pour un échantillon donné, la variable aléatoire À prend la valeur particulière 
* et on a l'intervalle de confiance : 


T— Eau/20X SHES TH E)20 8 


où 2,72 est la valeur de la variable Z telle que P(Z < 24,2) = 1 —-a/2, et ag 
est l'écart-type de la distribution d'échantillonnage de X. 

Deux situations peuvent se présenter : l'échantillon est tiré soit avec remise 
soit sans remise, Dans le premier cas, on a : 


TR=— (avec remise) 
et dans le deuxième cas : 


T ‘ 
FT = Won 1287 (sans remise) 
où JV est la taille de la population et n celle de l'échantillon. 

Comme nous l'avons déjà vu au paragraphe 10.4, À est une variable aléatoire 
et Z est une des valeurs de cette variable aléatoire dont les valeurs possibles 
sont Æ1,T2,...,74. En pratique, quand on étudie une population quelconque, 
on ne prend normalement qu'un seul échantillon sur lequel il faut calculer les 
statistiques nécessaires, À savoir À et og. C’est à partir de cet échantillon que 
l'on va tirer des conclusions sur la population. Par conséquent, l'intervalle de 
confiance de l'estimateur de y défini sous sa forme générale devient, pour un 
échantillon donné : 


À — 290% SEX +arijong. 


Hidden page 


Hidden page 
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fx) 


3 “À “1 î 1 à à 


Figure 11.2 : Distribution de Student pour différents degrés de liberté par 
rapport à La distribution normale 


La forme générale de l'intervalle de confiance est la suivante : 


? $ . S 
À — Linfan1) 27e LHE À + t{aufan-1} 7 


où n — 1 représente le degré de liberté, et « représente le seuil de signification 
de l'intervalle de confiance. 

Les calculs pour l'exemple des prix de l'essence sur l'autoroute donnent le 
résultat suivant : 


123,5 — f{a)2,12—1) : À <u< 123,5 +t{s,212-1 Re. 


OÙ t{n/2,12-1) Correspond à la valeur £ de la distribution de Student pour un 
niveau de confiance 1 — & = 95% et 12 — 1 = 11 degrés de liberté. Cette valeur 
s'obtient à partir de la table des valeurs { de la distribution de Student (voir 
annexe); elle est égale à 2,201. Ceci permet de calculer l'intervalle de confiance 
de l'estimateur de la moyenne y : 


TE CHI 
193,5 — 2,001. VE LL < 198,5 + 0,001. VE 
V2 S V12 


122,71 < y < 124,29. 


Le prix moyen de l'essence sur l'autoroute est estimé dans l'intervalle allant 
de 122,71 à 124,29, avec un niveau de confiance de 95%. 

Un deuxième exemple de l'utilisation de la distribution de Student est donné 
ci-dessous. 


Exemple 11.2 On dispose de 8 prises de sang recueillies sur une même 
personne. On obtient pour chaque prise un dosage de cholestérol en grammes 
de : 

246 243 247 248 245 249 242 245 
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On désire estimer le dosage moven y de cholestérol dans le sang de la per- 
sonne examinée, On construit donc un intervalle de confiance pour l’estimateur 
de u avec un niveau de confiance de 95%. 

Nous commençons par calculer la moyenne et l'écart-type obtenus sur l'ensem- 


ble de l'échantillon : 


x = Di 1968 ous os 
ri 8 
_ÿ\2 
ru Lx : SCRLR 
S =1% 


L'erreur-type de la moyenne est égale à : 


GR = 7e = 7 gg — 084 


La valeur du t de Student dans la table pour un seuil de signification de 5% 
et 7(= 8-1) degrés de liberté est 2,365, ce qui nous permet de définir l'intervalle 
pour ji : 


À —tiapan-1 5% SH À +tia/an-1) "TX 
245,625 — 2,365 - 0,84 € y € 245,625 + 2, 365 - 0, 64 
243,64 <u< 247,61. 


Le dosage moven de cholestérol dans le sang de la personne examinée est 
estimé entre 243,64 et 247,61 grammes avec un niveau de confiance de 95%. 

Quand la taille de l'échantillon est assez grande (n > 30), la distribution 
de Student s'approche de plus en plus de la distribution normale et les valeurs 
de tjs an-11 s'approchent des valeurs z,,: correspondantes. Donc, quand n est 
sufhsamment grand, l'intervalle de confiance calculé à partir des valeurs de la 
distribution normale donne une approximation assez proche de l'intervalle de 
confiance exact, calculé à partir des valeurs de la distribution de Student. 


Exemple 11.3 Sur la base d'un échantillon de 51 objets, on a mesuré une 
variable X caractérisée par la movenne : 
X = 12,3 
et la variance : 
= 5° = 8,9. 


Supposant que la variable aléatoire X posséde une distribution normale de 
moyenne u et variance o*, le but est d'obtenir l'intervalle de confiance de l'es- 
timation de « en fonction des résultats de l'échantillon. 
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La variance étant inconnue, on applique la formule de l'intervalle de confiance 
selon la distribution de Student : 


8.9 8,0 
12,3 t(0/2,50) (Er < 4 S 123 +t0/2,50) : VTT 


/8,9 [8,9 

_ = ——— Cl L 4 ae 

12,3 — 2,009 S1 < À 12,3 + 2,009 Si 
11,46 < y < 13,14. 


La taille de l'échantillon étant assez grande (n = 51) on aurait pu utiliser la 
distribution normale au lieu de la distribution de Student et obtenir l'approxi- 
mation suvante : 


12,3 — 1,960 - 1/#? Su< 12,3+1,960- ai 


51 
11,48<u< 13,12. 


En comparant cet intervalle et celui obtenu à partir de la distribution de 
Student, on note que les valeurs sont très proches. 
Les choix présentés dans cette section sont résumés ci-dessous : 


« Intervalle de confiance de l'estimation de la moyenne d'une dis- 


tribution normale 
1. Variance connue 


Fe TT CU 


À tof 7e SAS À + ap 
2. Variance inconnue 
» S . s 
À Hojan-1) "7 SAS À + lapin): 7 


Si n est suffisament grand (n > 30) le résultat ci-dessus peut être 
approximé par : 


11.3 Intervalle de confiance pour la moyenne 
d’une distribution quelconque 
Quand la distribution de La variable X n'est pas connue ou lorsqu'elle est connue 


mais ne suit pas une loi normale, les résultats de la section précédente ne sont 
pas applicables directement. Toutefois, dans certaines conditions il est quand 
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même possible de les utiliser pour obtenir un intervalle de confiance approximatif 
de l'estimation de la moyenne, l'approximation étant d'autant plus rapprochée 
que le nombre d'observations n (la taille de l'échantillon) est grand et que la 
distribution est voisine de celle de la loi normale. 


e nest grand {n > 30) 


Si l'effectif n de l'échantillon est grand (n = 30) et si les variables aléatoires 
X,r--, XX, sont indépendantes, le ratio : 


À — hu 
Sjyn 


utilisé dans la section précédente pour dériver l'intervalle de confiance, suit ap- 
proximativement la loi de distribution normale, même si les variables aléatoires 
X,---,X, elles-mêmes ne suivent pas une distribution normale. 

Ceci est le résultat du théorème central limite appliqué à la moyenne échan- 
tillonnale X = £(X1 ++ Xh). On en déduit que lorsque n est grand, on a 
approximativement : 


À rw N{u, —) 
et = 
À — ju 
NE is N(0, 1) 
On en déduit, quand n est grand, que le ratio : 
X - y 
SA  N(0,1) 
suit approximativement une distribution normale, même si X1,-::,X, ne sui- 


vent pas une distribution normale. 

Ce résultat nous permet d'obtenir l'intervalle de confiance approximatif de 
l'estimateur de u en utilisant la même procédure de la section précédente quand 
n est grand. 


Exemple 11.4 Dans un test pharmaceutique, on a administré à 64 rats de 
laboratoire un dosage fixe d'un nouveau produit chimique contre une maladie 
du sang. Le temps avant que le premier symptôme n'apparaisse au niveau des 
globules a été mesuré et les résultats obtenus ont été : 


X = 2,13 minutes 
S = 0,37 minute, 


Bien que l'analyse des résultats individuels ait montré que la distribution 
du laps de temps écoulé avant l'apparition d'un symptôme ne suit pas une loi 
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normale, n = 64 étant grand, un intervalle de confiance approximatif de l'esti- 
mateur de la moyenne u de cette durée peut être obtenu à l'aide des résultats 
de la section précédente, notamment : 


. S = S 
X - 7 SHE de 
Ni don 0, 37 


64 


Lu< 2,134+1,96.— 
u + 2,22, 


Cet intervalle de confiance approximatif obtenu, au niveau de confiance de 
95%, correspond aux valeurs & = 5% et 2,10 = 1,96. 


enn'est pas grand 


Si l'effectif n de l'échantillon est restreint, le théorème central limite s'applique 
mal. Donc l'intervalle de confiance doit s'obtenir directement en fonction de La 
loi de distribution des X,,---,X,. Par exemple, si leur distribution est uniforme 
sur l'intervalle (a,b}, on doit chercher la forme de l'intervalle de confiance de 
l'estimation de la moyenne u = (a +b)/2 en se basant sur la loi uniforme et non 
sur la loi normale. Cette démarche est souvent difficile et les formules obtenues 
compliquées. 

En pratique, quand une précision fine n'est pas explicitement demandée, 
on peut calculer l'intervalle de confiance de l'estimation de la moyenne d'une 
distribution inconnue (ou connue mais non normale) comme si elle était normale. 
La fiabilité de cette pratique n'est pas garantie et il se peut que les résultats 
ainsi obtenus soient très éloignés des résultats théoriques. L'ampleur de cette 
inexactitude dépend de la taille de l'échantillon et de la forme de la loi théorique 
de distribution des observation : plus l'échantillon est petit et plus la forme de 
la loi de distribution est différente de celle de La loi normale, plus l'erreur est 
considérable. 


11.4 Intervalle de confiance pour une propor- 
tion 


Comme nous l'avons défini au chapitre précédent, nous utiliserons le symbole 7 
pour représenter la proportion d'une population ayant un caractère À défini et 
le symbole p pour la fraction correspondante dans l'échantillon. 


Exemple 11.5 Un sondage effectué sur 300 votants d'une population de 
3 000 personnes a montré que 165 personnes avaient l'intention de voter pour 
l'acceptation du projet soumis au vote. Le pourcentage d'échantillonnage P = 
165/300 = 0,55 est une estimation de la proportion + de la population. 
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En général, la valeur p pour un échantillon de taille n peut être considérée 
comme la moyenne de n variables de Bernoulli, X:, X2,..., X, : 


Ait Ati + in 


TE 


F 
où la variable X;, à = 1,2,...,n, est définie par : 


X. = 1 si l'observation i possède le caractère À 
‘ Ü cas contraire. 


La moyenne et la variance de chaque X; sont exprimées par : 


E(X;) = * 
Var(X;) = e°=#(1-7). 


Qu en déduit la moyenne et la variance de p pour un échantillon aléatoire 
simple : 


_ EtX1+X2+:::+Xn) 


E(P) - = 
Pre Var(A1 +R + +2) 
_  _m(l-7") 
On nn 


Mesurée à partir de l'échantillon, la variance 5? d'une proportion est égale 
à P(1 — P). Ce qui nous permet de définir l'erreur-type de la distribution 
d'échantillonnage des pourcentages. Dans le cas de l'exemple 11,5, on obtient : 


S? _P(1—P) 0,55-0,45 


" = 300 = 0, 000825 


2 — 
Pb = 


et 


C 
Ÿp = n = /0,000825 = 0,0287. 


La taille de la population étant suffisamment grande, nous n'avons pas tenu 
compte du facteur correctif. 

Le calcul de l'intervalle de confiance de la population x dépend de la taille 
de l'échantillon. Lorsque la taille de l'échantillon est suffisamment grande, nous 
pouvons considérer que la distribution d'échantillonnage suit approximative- 
ment une loi normale, Nous procédons donc de la même manière que pour 
l'estimation d'une moyenne : 


S 5 
Pix SAS P+ a 2 


N 
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Dans notre exemple et avec un niveau de confiance de 95%, nous obtenons 
l'intervalle suivant : 


0,55 — 1,96 - O0, 0287 < 7 < 0,55 + 1,96 - 0,0287 
0,494 <r < 0,606. 


Lorsque la taille de l'échantillon est petite, l'approximation par la loi normale 
n'est pas adéquate et l'intervalle de confiance devrait être basé directement sur 
la distribution théorique des observations. Cette distribution est la loi binômiale 
et le problème revient à chercher deux valeurs m et p2 telles que la probabilité 
d'observer P à l'intérieur de ces deux limites soit égale à 1 — à : 


Pim<r<m)l=l-a, 


La loi binômiale étant une loi discrète, trouver une égalité exacte à 1 — & 
n'est pas possible en général, mais il est toujours possible en revanche d'assurer 
une probabilité juste un peu plus élevée que le seuil de confiance 1 — «x. 

Exprimant PF par la fraction X'/n où X représente le nombre d'individus 
dans l'échantillon ayant le caractère À, on obtient : 


P(nm < À < np) =1-a. 
Cette probabilité est assurée si : 


(i) PX < nm) = 5 et 
= 
2 


(ii) P{X > npe) = 


où La variable À suit une loi binémiale, On a donc : 


0 - 
(i) P(X<nm)= Ÿ. (r }re-n ‘=> 


k=[Û 


(üi) P(X>nm)= Ÿ e) rl = nr) 2 _. 


k=np;+1 


Les valeurs de n et « étant fixées d'avance, on considère chacune des expres- 
sions (i} et (li} comme une équation de pm ou p2 en fonction de +. Donc pour 
chaque valeur de x, on obtient une valeur de p, à partir de (i} et une valeur de ps 
à partir de (ü). L'ensemble des valeurs m et p2 ainsi obtenu peut être répresenté 
par deux courbes. L'intervalle de confiance de l'estimation de la population # 
s'obtient en trouvant les valeurs m et ps, sur l'axe vertical correspondant à la 
proportion p sur l'axe horizontal du diagramme représentant les deux courbes 
obtenues dans l'échantillon. 
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11.5 Historique 


Selon A. Desrosières (1988), À. L. Bowley fut l'un des premiers à s'intéresser à 
la notion d'intervalle de confiance. C'est en 1906 que Bowley présenta à la Roval 
Statistical Society ses premiers calculs d'intervalle de confiance. Essentiels, dans 
la théorie des intervalles de confiance, le test de Student et la table de Student 
ont été développés par W. 5. Gosset dit Student. 


11.6 Exercices 


1. Dans un test de fabrication de composantes d'une chaïne Hifi, la baisse de 
puissance de sortie des circuits éléctriques après 2 000 heures d'utilisation 
a été mesurée. Un essai sur 80 composantes identiques a donné une baisse 
de puissance égale à 12 watts, Par ailleurs, il est connu que l'écart-type de 
la baisse de puissance pour ce type de circuit électrique est o = 2 watts, 


(a) Calculer l'intervalle de confiance de l'estimation de la baisse de puis- 
sance de la fabrication. Utiliser le niveau de confiance de 95%. 


(b) Recalculer l'intervalle pour un niveau de confiance plus élevé, soit 
99%. 


(c) Vérifier que l'intervalle obtenu dans (b) est plus large que celui obtenu 
dans (a). Expliquer ce fait. 


2. Un test similaire à l'exercice 1 a été effectué dans une deuxième usine qui 
vient d'entrer en fonctionnement. N'ayant pas de données antérieures, il 
est impossible de fixer une valeur pour l’écart-type &. Cette valeur doit 
donc être estimée à partir des résultats du test, Les résultats obtenus sur 
un échantillon de 70 composantes identiques ont donné : 


FE = 14 watts g=5 


(a) Calculer l'intervalle de confiance de l'estimation de la baisse de puis- 
sance des composantes de cette nouvelle usine, Utiliser le niveau de 
confiance de 95%, 


{b) Recalculer (a) avec une valeur de 99%. 


3. Le tableau suivant présente un extrait du tableau des valeurs boursières 
de l'exercice 5 du chapitre 6. Nous avons les valeurs de clôture des 3 et 4 
août 1999 de 9 actions parisiennes choisies au hasard parmi les 38 actions 
qui pourraient constituer un portefeuille : 
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3 août 4 août 
Accor 216,00 218,70 
Alcatel 144,0) 144,00 
AXA 107,00 107,00 
CCF LOS, 30 108,00 
L'Oréal 592,50 579,80 
Legrand Ord. 159,90 190,00 
Michelin (Action “B") 38,50 39,50 
Pinault Printemps Redoute 155,00 151,90 
Suez Lyonnaise des Eaux 163,10 162,00 


(a) Sur la base du tableau ci-dessus, calculer l'intervalle de confiance avec 
un degré équivalent à 95% de la valeur moyenne de l'ensemble des 
actions du portefeuille de 38 actions du 3 août 1999. Exprimer vos 
hypothèses. 

(b) Effectuer le même calcul pour les valeurs boursières en date du 4 août 
1999. 

{c) Déterminer l'intervalle de confiance avec un niveau de confiance de 


95% du changement des valeurs boursières entre le 3 et le 4 août 
1999. 


4. Douxe adultes francophones d'intelligence moyenne ont fait l'objet d'une 
expérience de mémoire, Le temps pris pour apprendre une liste de 5 
verbes allemands a été enregistré pour chaque personne, Ceci a donné les 
résultats suivants : 


9,1 minutes 5,5 minutes 4,5 minutes 
4,8 ” 5,0 é 5,8 " 
6,3 dé 5,2 i à,9 du 
3,0 Ë 4,9 ÿ 3,2 : 


(a) Calculer la moyenne et l'écart-type de l'échantillon. 


(b) Établir l'intervalle de confiance (a=5%) du temps moyen nécessaire 
à un francophone pour apprendre la liste des 5 verbes allemands. 


(c) On dit qu'un francophone ne peut apprendre qu'un verbe par minute. 
Est-ce que cette affirmation est justifiée par le résultat obtenu dans 
(b)? 


$. Un échantillon aléatoire de 100 gravures, pris au hasard dans un grand 


lot, en contient 15 ayant certaines imperfections. 


Calculer l'intervalle de confiance exact de l'estimation de la proportion des 
gravures défectueuses de ce lot. Utiliser le niveau de confiance de 95%. 
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Chapitre 12 


Tests d’hypothèses 


Beaucoup d'investigations statistiques nous amènent à fixer une valeur préa- 
lable d'une caractéristique de la population et de confirmer ou d'infirmer cette 
valeur à l'aide des résultats obtenus à partir d'un échantillon. Par exemple, un 
candidat aux élections qui emploie un sondage pour connaître les chances de sa 
réussite veut, en effet, savoir si la proportion de la population qui votera pour 
lui dépassera ou non la barre des 50%. Les résultats obtenus sur l'échantillon lui 
permettront soit de confirmer son idée (il bénéficiera de plus de 50% des voix) 
soit d'infirmer cette idée (il ne bénéficiera pas de plus de 50% des voix). 

Dans le chapitre 10, nous avons appris comment estimer les caractéristiques 
d'une population sur la base d'un échantillon, Dans ce chapitre, nous appren- 
drons des méthodes qui utilisent ces estimations pour tester des hypothèses sur 
les caractéristiques de la population. 


263 


264 Chapitre 12 


12.1 Principe du test d’hypothèses 


Comme nous l'avons déjà indiqué auparavant, les caractéristiques d'une popu- 
lation sont souvent exprimées en terme de moyenne, de variance ou de pour- 
centage, Ces paramètres sont de type quantitatif, Les méthodes de tests d'hy- 
pothèses vont nous permettre soit d'accepter l'hypothèse de départ concernant 
la valeur du paramètre en question, soit de la rejeter. Dans ce paragraphe, nous 
allons étudier les tests d'hypothèses sur la moyen-ne et sur le pourcentage d'une 
population. 

À titre d'exemple, prenons le cas suivant : nous savons, d'après des études 
pédagogiques, que, pour une bonne compréhension des matières enseignées, les 
étudiants de l’université devraient consacrer environ 45 heures de travail par se- 
maine, avec un écart-type de 9 heures, selon la discipline. La valeur “45 heures” 
représente notre hypothèse de départ afin d'examiner si la situation actuelle dif- 
fère sensiblement ou non de cette opinion. Nous prenons un échantillon aléatoire 
de 36 étudiants inscrits l'année considérée à l'université, auxquels nous posons la 
question : “Combien d'heures par semaine consacrez-vous à vos études ? (cours 
universitaires et travaux personnels inclus)". 

Nous comparons la moyenne de cet échantillon avec l'hypothèse précédente 
de 45 heures. Si la moyenne d'échantillonnage obtenue est beaucoup plus élevée 
que 45 heures, nous pourrons étre amenés à croire que le nombre d'heures de 
travail des étudiants est supérieur à 45. Cependant, si la moyenne de l'échan- 
tillon n'est que faiblement plus grande, nous ne pourrons pas conclure que le 
travail des étudiants de cette année est significativement supérieur à la norme, 
le résultat de l'échantillon pouvant être dû au simple hasard. 

En terme général, le problème est de savoir à partir de quelle limite nous 
pouvons considérer que la différence entre la moyenne supposée de la population 
et celle de l'échantillon est trop grande pour conclure qu'elle est significative. 
L'introduction d'une certaine terminologie et de quelques notions statistiques 
particulières sont nécessaires pour traiter le problème des tests d'hypothèses. 

Dans notre exemple, la possibilité que la moyenne hebdomadaire des heures 
d'étude des étudiants soit, comme dans les années antérieures, 45 est appelée 
l'hypothèse nulle, dénotée par Ho. Si l'hypothèse nulle est vraie, cela signi- 
fie qu'il n'y a pas eu de changement entre les années précédentes et l'année 
courante {le changement est “nul"}, La possibilité que la moyenne d'heures 
d'étude ait augmenté est appelée l'hypothèse alternative, où H;. Ces hy- 
pothèses s'écrivent comme suit : 


Hy : x = 45 heures 
H;, : x > 45 heures. 


Le test de ces hypothèses s'effectue à partir des résultats d'un échantillon- 
nage. Soit Ÿ la moyenne des heures d'étude d'un échantillon aléatoire des étu- 
diants de l’université, nous savons que l'espérance mathématique de X, dénotée 
par + est égale à la moyenne de la population y, et que l'erreur-type æ$ est 
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égale à l'écart-type de la population & divisé par la racine carrée de la taille de 
l'échantillon. Pour un échantillon aléatoire de 36 étudiants, nous aurons : 


Hz = = 45 


= is 
0 OUR AR 
en supposant que l'écart-type des heures d'étude de cette population est connu 
et égal à 9. 

Dans ce calcul, la taille de la population est considérée suffisamment grande 
(l'ensemble des étudiants de l'université) pour que le facteur correctif de l'erreur- 
type soit ignoré. En admettant que la taille de l'échantillon soit aussi suffisam- 
ment grande pour que le théorème central limite soit applicable, il est justifié 
d'approcher la distribution d'échantillannage de À par la loi normale correspon- 
dante, soît : 


# 
= [TT 
Re Nu —) 


Si on se réfère à La table de Gauss, nous trouvons que la probabilité pour 
que la movenne d'échantillonnage dépasse celle de la population de plus de 1,645 
écart-type est de 5%. Si la moyenne de la population est 45, la probabilité que 
la moyenne d'échantillonnage soit plus grande que 45 + 1,645 - 1,5 — 47,47 est 
donc de 5%. 

Nous utiliserons cette règle pour décider de rejeter l'hypothèse nulle si la 
moyenne d'échantillonnage dépasse 47,47, et de retemir cette hypothèse si la 
moyenne d'échantillonnage est plus petite que 47,47. La figure 12.1 représente 
la région de rejet de l'hypothèse nulle, La région complémentaire, “région 
de non rejet” ou d'acceptation, est la région où le résultat n'est pas suffisant 
pour rejeter l'hypothèse nulle. 


Rem mem mm m—  e  ù O0  æ  m 


45 aT AT 


Figure 12.1 : Région de rejet pour un test d'hypothèse 


En utilisant cette règle de décision, nous avons une probabilité de 5% de 
commettre l'erreur de rejeter l'hypothèse nulle quand cette dernière est pour- 
tant correcte. Cette probabilité est appelée le seuil de signification du test. 
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Puisque construire un test d'hypothèses revient à formuler une décision, on 
rencontre par conséquent ces deux types d'erreur appelés erreur de première et 
de deuxième espèces : 


1. l'erreur de première espèce consiste à rejeter Ho alors que Ho est 
vraie. On note la probabilité de cette erreur par «& ; 


2. l'erreur de seconde espèce consiste À accepter Ho alors que H est 
vraie. La probabilité de cette erreur est dénotée par 4. 


Le tableau 12.2 représente ces deux types d'erreur et leurs probabilités : 


Tableau 12,3 : Probabilités des deux types d'erreur 


Hypothèse vraie 
H5 H 


Dans ce tableau, & et 5 sont des probabilités d'erreurs (de première et deu- 
xième espèces respectivement), (1 — &) et (1 — $) représentent les probabilités 
complémentaires de prendre la bonne décision dans les deux cas différents. La 
valeur {1 — a) correspond à la probabilité de ne pas rejeter Hy alors que Ho est 
vraie, et (1 — 5} correspond à la probabilité de rejeter Ho alors que À, est vraie. 

Le type d'erreur auquel le statisticien est confronté (a ou #}) dépend de la 
valeur réelle du paramètre qui est bien entendu inconnue du chercheur. Le 
statisticien ne sait pas s'il sera confronté au type d'erreur & ou au type d'erreur 
3. Dans la mesure du possible, il devra donc minimiser ces deux types d'erreur 
simultanément. 

Reprenons maintenant l'exemple des heures hebdomadaires de travail des 
étudiants pour exprimer ces différentes erreurs en termes de probabilités, 

La notion de seuil de signification déjà utilisée est la probabilité de conclure 
que Les étudiants passent plus d'heures à leurs études que la norme, alors qu'en 
réalité, ils ne dépassent pas la norme (45 heures par semaine). Le résultat de 
l'échantillon a révélé un nombre supérieur par pur hasard. Le seuil de significa- 
tion mesure donc cette probabilité d'erreur de première espèce. 

L'autre possibilité d'erreur est de conclure que les étudiants travaillent tou- 
jours 45 heures par semaine, alors qu'en réalité, ils travaillent davantage, On 
parle alors d'erreur de deuxième espèce. 

Considérant l'hypothèse Ho : pu = 45, le test avec un seuil de signification 
& = 5% consiste à rejeter l'hypothèse si la moyenne d'échantillonnage dépasse 
47,47. La probabilité de rejeter Hy alors que Hy est vraie ne peut dépasser 
a = 5%. On parle alors d'erreur de type «. 
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12.3 Puissance du test 


L'erreur de ne pas rejeter Ho alors que Ho n'est pas vraie (autrement dit, alors 
que H\ est vraie) est appelée l'erreur de type 8. Sa valeur dépend de la nature de 
la vraie hypothèse. On calcule normalement la probabilité complémentaire 
(1 — S), appelée la puissance du test. Elle correspond à la probabilité de 
rejeter l'hypothèse nulle alors que l'hypothèse alternative est vraie. 


12.3.1 Notion de puissance 


La puissance du test mesure dans un certain sens la capacité du test à différencier 
la valeur d'échantillonnage de celle de la population. Si la valeur réelle de la 
movenne de la population est 46, la probabilité de rejeter l'hypothèse est donc 
égale à la probabilité que la moyenne d'échantillonnage dépasse 47,47 et nous 
obtenons : 


_ = FATETT. 
P(X > 47,47 | js = 48) Pl > Ts) 


TX TX 
47,47 — 46 
= P (z ee LT 
= P(Z > 0,98) 
= ]—0,8365 
= 16,35% 


qui représente la puissance du test pour une moyenne d'échantillonnage de X = 
47,47 et une valeur réelle de la moyenne de la population de u — 46. 

Si la valeur réelle de la moyenne était 47, la puissance du test s'éléverait à 
37,83% = P(Z > (47,47 —47)/1,5). La probabilité de rejeter l'hypothèse nulle 
est donc d'autant plus élevée que la valeur du paramètre de la population est 
grande, Ceci indique le fait que plus la différence entre la movenne d'échantil- 
lonnage et La moyenne de la population est grande, plus il est facile de faire la 
distinction entre les deux, compte tenu du hasard, Ces différentes probabilités 
sont représentées à la figure 12.2, Elles correspondent aux différentes valeurs 
de la vraie moyenne de la population, suivant qu'elle est u = 45 ou y = 46 ou 
u = AT. 


muy = 5 AT AT 


(a) P(X > 47,47] u = 45) 


Tests d'hypothèses 269 


muy = dif aT,A47 


(b) P(X > 47,47] u = 46) 


musdT 47AT 


(c) P(X > 47,47| u = 47) 
Figure 12.2 : Probabilités de rejeter l'hypothèse nulle pour différentes 
valeurs de x (mu) 


12.3.2 Fonction puissance 


Les parties hachurées de la figure 12.23 correspondent à la probabilité de rejeter 
l'hypothèse nulle en fonction de y la valeur réelle de la moyenne de la population. 
Nous constatons donc que cette probabilité de rejet de l'hypothèse nulle dépend 
de #. La valeur de cette probabilité pour les différentes valeurs de 1 est appelée 
fonction puissance d'un test. Cette fonction est représentée en figure 12.3. 


1,60 
0.50 
1-bata 
45 


AT AT 


Figure 12.3 : Fonction puissance 
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La fonction puissance permet de faire les constatations suivantes : 


e si la véritable valeur de y est égale ou inférieure à 45, c'est-à-dire si Ho 
est vral, nous pouvons commettre l'erreur de type « mais pas de type 
5. La ligne verticale au-dessous de la courbe représente la probabilité 
d'erreur & (rejeter Ho alors que Ho est vrai) et la ligne verticale au-dessus 
de la courbe représente la probabilité 1 — a d'avoir pris la bonne décision 
(accepter Ho alors que Ho est vrai) ; 


* en revanche, si la valeur réelle de x est supérieure à 45, l'hypothèse H, est 
vraie, et nous ne sommes plus confrontés au type d'erreur & mais à l'erreur 
4. La ligne verticale au-dessous de la courbe représente la probabilité 1— 
d'avoir pris la bonne décision (rejeter Ho alors que Ho est fausse) et la 
ligne verticale au-dessus de la courbe représente la probabilité d'erreur # 
(accepter H4 alors que H4 est fausse). 


Nous pouvons voir sur ce graphe que si La valeur réelle de x est très grande, 
il y a toutes les chances pour que l'hypothèse nulle soit rejetée, mais que pour 
des valeurs de y à peine supérieures à la valeur hypothétique de uw = 45, la 
probabilité de rejet n'est que faiblement supérieure au seuil de signification 


a = 5%. 


12.34.34 Influence de la taille de l'échantillon 


Plus la taille de l'échantillon est grande, plus les estimateurs des paramètres 
de la population à étudier sant précis et plus le test d'hypothèses fondé sur 
ces estimateurs est discriminatoire. En effet, plus la taille de l'échantillon est 
grande, plus il devient improbable qu'une différence observée entre l'estimateur 
et la valeur hypothétique soit uniquement attribuable au hasard de l'échantil- 
lonnage. On peut, au contraire, penser à juste raison qu'il existe une différence 
réelle et donc rejeter l'hypothèse de départ. 


La performance d'un test est donc meilleure si la taille de l'échantillon est 
grande. La fonction puissance nous permet de vérifier ce fait. Dans la figure 
12.4, la fonction puissance de l'exemple précédent a été reproduite pour deux 
échantillons de taille différente (n — 36 et n — 1201). 


Comme nous pouvons le constater, pour toutes les valeurs de pu > 45, la 
courbe correspondant à n = 120 est plus élevée que celle correspondant à n = 46. 
Ceci signifie que la puissance est nettement plus grande pour n = 120 que pour 
n = 36, et donc que la probabilité d'erreur de type # (maintenir l'hypothèse 
nulle alors que celle-ci est fausse) est beaucoup plus faible. 
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0,05 


45 


Figure 12.4 : Deux fonctions puissance selon la taille de l'échantillon 


12.3.4 Influence du seuil de signification 


Le choix de la valeur du seuil de signification à a aussi une influence sur la 
puissance du test. En effet, si nous reprenons l'exemple précédent avec n = 36 
pour un seuil de signification de 1%, la limite du maintien de l'hypothèse nulle 
sera égale à 45 + (2,93: 1,5) — 48,49. Avec cette limite, l'erreur de type à a été 
réduite de 5% à 1%, mais la probabilité de rejet de l'hypothèse nulle a aussi été 
réduite, quelle que soit la valeur de u. Cette relation est exprimée par la figure 
12.5 qui nous permet de comparer les deux fonctions puissance pour un seuil de 
signification égal à 5% et 1%, respectivement. 


alpha=s%  —+ 


4— alpha =1% 


Figure 12.5 : Deux fonctions puissance selon le seuil de signification du test 


Le choix du seuil de signification est important pour contrôler le risque de 
rejet d'une hypothèse alors qu'elle est correcte, Ceci est particulièrement im- 
portant quand le test d'hypothèses est appliqué à des situations où l'on cherche 
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où uy est la valeur présumée de la moyenne de la population. 

Étape 2 : L'hypothèse nulle est rejetée lorsque la moyenne d'échantillon- 
nage est significativement plus grande ou plus petite que la valeur présumée de 
la moyenne, Comme indiqué sur la figure 12.6, il existe deux régions de rejet de 
l'hypothèse nulle de surfaces égales. 


Figure 12.6 : Régions de rejet pour un test bilatéral 


Les régions de rejet étant divisées en deux parties égales, si le seuil de signi- 
fication du test est à = 5%, la probabilité de rejet de l'hypothèse nulle sera de 
æ/2 = 2,5% pour chaque région de rejet. 

Étape 3: Pour déterminer la distribution des probabilités, deux cas peuvent 
se présenter : 


- lorsque # est connu ou que la taille de l'échantillon est suffisamment 
grande (n > 30), nous pouvons utiliser La loi normale : 

- lorsque # est inconnu et que la taille de l’échantillon est trop petite, 
il faut d'abord estimer # par l'écart-type de l'échantillon s. Ensuite, 
on utilise la table de Student t. La valeur de t est à la fois déterminée 
par le seuil de signification & et le nombre de degrés de liberté (égal 
àn—1ll). 


Étape 4 : Dans le premier cas, le rapport critique (R.C.) est calculé de 
la facon suivante : 
ro = IA =#ol 
TX 
où Ty = =. Le rapport critique consiste donc à soustraire d’une variable sa 
moyenne puis à diviser par l’écart-type. On dit que l’on standardise la variable. 
Dans le deuxième cas, le rapport critique est : 


rc = À = 
FX 
où dg = =. L'écart-type S de l'échantillon peut étre donné tel quel sans 


mention des observations, et peut étre estimer à partir de l'échantillon X1, X, 
PRES. PE 
s LE 
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AC. = 1,67 € 1,9%. 


Le rapport critique étant inférieur à la valeur de z,,,4, l'hypothèse nulle ne 
peut pas être rejetée au profit de l'hypothèse alternative, Ceci correspond au 
résultat obtenu précédemment sur la base du calcul des régions de rejet. 
12.5.2 Test unilatéral à droite 
Pour un test unilatéral à droite, les hypothèses sont les suivantes : 

Ho : H= 9 
H; : p> py. 


Dans ce cas, la région de rejet de l'hypothèse nulle est tronquée et se situe 
du côté droit de la distribution d'échantillonnage (Figure 12.7). 


Figure 12,7 : Région de rejet pour un test unilatéral à droite 


Suivant que æ soit connu où inconnu et suivant la taille de l'échantillon, nous 
avons deux cas (analogues au test bilatéral) : 
L'hypothèse nulle est retenue si : 


*- 
RC. = = «2, 
TR 
Cl _ 
= 
RC. = ET € tant) 
ë 


Exemple 12.2 Une chaîne de montage de réfrigérateurs fonctionne de façon 
optimale si le temps de passage dans la chaîne n'excède pas 20 mn. Un échan- 
tillon de 25 réfrigérateurs a été choisi et le temps de passage a été observé pour 
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chacun des réfrigérateurs. La moyenne du temps de passage ainsi obtenue est 
égale à 22 mn, avec un écart-type de 5 mn. 
Les hypothèses à tester sont : 


Ho : u = À 
Hi : x > A. 


La taille de l'échantillon n'étant pas assez grande, nous utiliserons la distri- 
bution t de Student. Pour & = 5% et 25 — 1 — 24 degrés de liberté, la valeur 
appropriée de t{, d'après la table de la distribution { de Student, est t = 1, 711. 


Le temps de passage moven pour l'échantillon observé étant, x: = X = 22, 
et comme y = 20, on obtient : 


À -uy 22-20 
FR V2 
Or RC. = 2 a une valeur supérieure à t0524, = 1,711 pour le seuil de 


signification « = 5%, donc nous rejetons l'hypothèse nulle et considérons que le 
temps de passage moyen est significativement supérieur à 20 mn. 


A.C. = 


12.5.3 Test unilatéral à gauche 


La procédure pour effectuer un test unilatéral à gauche est semblable à celle pour 
un test unilatéral à droite. Pour un test unilatéral à gauche, les hypothèses sont 
les suivantes : 


Ho : H= Ho 
Hi : pu < lp: 


La région de rejet de l'hypothèse nulle se trouve à gauche de la distribution 
d'échantillonnage, comme le montre la figure 128. 


région de rejet 1-alpha 


Figure 12,8 : Région de rejet pour un test unilatéral à gauche 


L'hypothèse nulle est rejetée si la moyenne échantillonnale est significativement 
plus petite que la valeur présumée de la moyenne de la population. En revanche, 
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l'hypothèse nulle est acceptée si la movenne d'échantillonnage est suffisamment 
grande. 
Le calcul du rapport critique reste le même que dans le cas d'un test umi- 
latéral à droite : : 
RG 
TX 


la comparaison avec La valeur correspondante de La table de Gauss ou f de Stu- 
dent changeant de direction. Pour un test unilatéral à droite, l'hypothèse nulle 
n'est pas rejetée si : 


GA 
Té 

Exemple 12.3 Un producteur de parfum désire s'assurer que ses flacons de 
parfum contiennent bien un minimum de 40 ml. Un échantillon de 50 flacons 
donne une moyenne de 39 ml, avec un écart-type de 4 ml. 

Dans ce cas, æ est inconnu mais la taille de l'échantillon est suffisamment 
grande (n > 30) : nous pouvons donc utiliser la loi normale. 

Pour un seuil de signification a = 1%, nous obtenons comme valeur selon la 
loi normale z = 2,43. 

Nous caleulons le rapport critique : 


X — po 39 — 40 


TR 4/50 


Cette valeur étant supérieure à —2,33 de la table de Gauss, l'hypothèse nulle 
ne peut pas étre rejetée. 


Ze —#a (ou — han) . 


RC. = = —1,77. 


12.6 Test d’hypothèses pour un pourcentage 


Dans ce chapitre, la procédure du test d’hypothèses pour un pourcentage ne 
sera exposée que pour le cas où la taille de l'échantillon est suffisamment grande 
(n > 30). La procédure plutôt complexe pour un petit échantillon relève de La 
loi binômiale. 

Dans le cas d'un échantillon de grande taille, le test d'hypothèses pour un 
pourcentage repose sur les mêmes principes que le test d’hypothèses pour une 
moyenne car un pourcentage peut être considéré comme la moyenne d'un en- 
semble de variables de Bernoulli. 

Dans le cas d'un test bilatéral, les hypothèses de départ se posent donc de 
la façon suivante : 


Ho : T = To = valeur présumée du pourcentage 
Hi : T£É To. 


Comme nous n'étudions que des échantillons de grande taille, on peut consid- 
érer que La distribution d'échantillonnage suit une loi normale. Nous trouverons 
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donc la valeur de : correspondant au seuil de signification désiré dans la table 
de Gauss. 
Le rapport critique est exprimé par : 


R.C. = IP = ml 
TP 
| — 
“ gp = YRLE re) 


Exemple 12.4 Reprenons l'exemple du début du chapitre concernant un 
candidat aux élections qui désire savoir s’il bénéficiera de plus ou de moins de 
90% des voix. 

Posons tout d'abord les hypothèses : 


Hy : nr =0,5 
H, : 7 É 0,5. 
Le pourcentage obtenu à partir d'un échantillon de 200 votants est de 52%. 
En effectuant un test bilatéral avec un seuil de signification de 5%, la valeur de 
+ dans la table de Gauss est de 1,96. 


Le pourcentage d'échantillonnage étant p = P = 52%, le rapport critique 
prends la valeur suivante : 


[0,52—0,51 


FC. étant inférieur à la valeur de la table de Gauss + = 1,96, l'hypothèse 
nulle ne peut être rejetée. 

Pour les tests unilatéraux, les procédures sont analogues aux tests d'hy- 
pothèses sur une moyenne. 


R.C. = 0,57. 


12.7 Test d’hypothèses avec la valeur p 


Une autre manière de tester des hypothèses est d'utiliser la valeur p. 
Nous allons expliquer le principe de ce test par un exemple sur un estimateur 
d'une moyenne. Supposons que les hypothèses à tester soient les suivantes : 


Ho : h= 9 

A1 : > y 
où u représente la moyenne d'une population distribuée selon une loi normale 
avec un écart-typé © CON 


Soit un échantillon de taille n et de movenne ?. La probabilité de trouver un 
à (estimateur de y} plus grand ou égal à Z sous l'hypothèse nulle 1 = y, est : 


p=P(>E|u = 9) 
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p est la valeur p. . 
| Hi — jo | 
o/yn 


En posant 7 = (variable aléatoire centrée réduite), on obtient : 


La valeur p se lit alors sur la table normale, Autrement dit, p représente 
l'aire situé sous la courbe normale après la valeur : 


_— LE — Hg | 
: cjyn 

Ainsi, pour un seuil de signification «& : 

- sip> a on ne rejette pas Ho ; 


- sp <a on rejette Ho. 


La figure suivante illustre le cas où p > « 


Figure 12,9 : Valeur p > & 


:. valeur calculée est plus petite que x valeur théorique trouvée sur La loi normale 
pour un seuil &. Donc p > à. Donc on ne rejette pas Hy. 

Notre exemple, effectué sur un test d'hypothèses unilatéral sur une moyenne, 
peut être généralisé À tout estimateur pour des tests bilatéraux ou unilatéraux. 
Le principe est le même, et dans tous les cas on peut définir la valeur p comme 
étant la probabilité (sous l'hypothèse Ho) d'avoir une valeur aussi extrême ou 
plus grande que la valeur calculée à partir de l'échantillon. 

De mème, quel que soit le test, la décision de rejet ou non de l'hypothèse 
nulle est identique. À savoir, pour un seuil de signification a : 


- spa, on rejette Ho: 


- sip< a, on ne rejette pas Hs. 
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12.9 Exercices 


1. Un directeur de laboratoire pharmaceutique refuse la mise en fabrication 
d'un nouveau vaccin proposé par un des chercheurs du laboratoire, Il in- 
voque pour cela les résultats statistiques peu concluants obtenus suite aux 
tests : le vaccin proposé n'est pas significativement plus efficace que celui 
utilisé actuellement. Les frais supplémentaires entraînés pour le produire 
ne sont donc pas justifés. 


(a) Soient Ho et H les hypothèses nulle et alternative. 
Ho: le vaccin proposé n'est pas plus efficace que celui déjà en pro- 
duction:; 
H;: le vaccin proposé est plus efficace que celui déjà en production. 
Quels sont les deux types d'erreurs que le directeur pourrait commet- 
tre relativement à ces deux hypothèses ? 


b} En prenant la décision de ne pas mettre en fabrication le vaccin pro- 
pr P 
posé, lequel des deux types d'erreur le directeur a-t-il tenté de con- 
trôler ? 


2. Pour tester l'hypothèse que la moyenne d’une population est différente 
d'une valeur donnée y # 10 (contre l'hypothèse que la moyenne est égale 
à u = 10), un échantillon de 64 observations a été obtenu. L'écart-type 
de la population est connu, & = 2,5. 


(a) Pour un seuil de signification de 5%, déterminer les régions dé rejet 
de l'hypothèse nulle = 10, en fonction de la valeur moyenne de 
l'échantillon (7). 

(b} Calculer la probabilité de rejeter l'hypothèse nulle 4 — 10, alors 
qu'elle est correcte. 

{c) En supposant que la valeur réelle de la moyenne de la population 
est a = 10,2, calculer la probabilité de rejeter l'hypothèse nulle en 
faveur de l'hypothèse 1 # 10. 

(d) Recaleuler {e) pour x = 10,4, pour u = 10,6 et pour u = 11. Repré- 
senter par un graphe la fonction de puissance du test. 

(e) Sachant que la moyenne de l'échantillon est Æ — 10,5, tester l’hy- 


pothèse u > 10 à l'aide de la valeur p, pour un seuil de signification 
de 5%. 


3. Un épicier du quartier vend en moyenne 8 boîtes par jour d'une marque de 
conserve d'asperges. Afin d'augmenter les ventes, l'épicier met en promo 
tion cette marque sur une durée de 12 jours. Le nombre de boîtes vendues 
durant cette période a été de : 


1 


8 7 
8 8 9 10 $& 
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(a) Pour tester s'il y a eu augmentation des ventes, exprimer l'hypothèse 
nulle et l'hypothèse alternative. 


(b} Calculer le rapport critique et comparer les résultats avec la valeur 
théorique correspondante, pour un seuil de signification de 5%, en 
supposant que le nombre de boîtes suive une loi normale. 


(c) Quelle est la conclusion ? Peut-on dire que suite à cette action pro- 
motionnelle, il y a eu augmentation des ventes pour la marque con- 
sidérée ? 


(d) Calculer la probabilité d'avoir commis une erreur de jugement. 


4. Pour tenter d'augmenter la pluie dans une région sèche, on a chargé les 
nuages de nitrate d'argent avec des avions spéciaux. L'augmentation des 
précipitations attribuable à la fertilisation pour $ périodes différentes a 
été de : 


1,6 cum 4,1 mm 6,7 mm  —1,5 mm 


— 2,5 mm 9,2 mm —2,9 mm 0,3 mm 


(a) Déterminer les régions de rejet pour un seuil de signification de 5%, 
et exprimer la conclusion qu'on peut tirer concernant les deux hy- 
pothèses H; et H;. 


{b} Est-ce que la conclusion précédente reste valable avec un seuil de 
signification de 1% ? 


(c) L'expérience a été poursuivie pour une durée supplémentaire de 4 
périodes. Les résultats suivants ont été obtenus : 


2,0 rm  1,4mm —0,9 mm 1,2 mm 


Sur la base de l'ensemble des résultats (12 périodes}, quelle est la 
conclusion de l'expérience ? 


5. On considère les hypothèses suivantes concernant une proportion + : 


Hy : —=0.2, 
H) : r #02. 


Sur la base d'un grand échantillon de taille n — 100, nous obtenons un 
estimateur p de x. 


{a} Établir le rapport critique pour tester l'hypothèse nulle Ho au seuil 
de sigmfcation de 596. 


(b} Si la valeur de l’estimateur à partir de l'échantillon est p — 0,25, 
doit-on rejeter l'hypothèse nulle ? 
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(1876-1937) 


William Sealy Gosset, dit “ Student ”, 
est né à Canterbury en 1876. Il entreprit 
des études de mathématiques et de 
chimie à New College, Oxford. En 1899, 
il commença à travailler comme 
brasseur pour le compte des Brasseries 
Guinness à Dublin. Cette société qui 
favorisait la recherche, ouvrit, en 1900, 
le “ Guinness Reasearch Laboratory ”. 
C'est dans cet environnement que se 
développa l'intérêt de Gosset pour les 
statistiques et qu'il fut amené à étudier la 
théorie des erreurs. Cela lui donna 
l'occasion de consulter K. Pearson qu'il 
rencontra en juillet 1905 et avec lequel il 
travailla pendant deux ans. En 1907, 
Gosset fut nommé responsable de la 
Brasserie Expénmentale de Gumness, et 
utilisa dans ses études la “table de 
Student” qu'il avait définie dans une 
expérience visant à déterminer la 
meilleure variété d'orge. Guinness 
l'autorisa à publier ses articles sous un pseudonyme. Il choisit “ Student ”. Il mourut 
en 1937, laissant d'importants écrits, tous publiés sous le nom de “ Student ”. 


Chapitre 13 


Comparaison de deux 
moyennes 


Dans le chapitre précédent, nous avons examiné le problème statistique des 
tests d'hypothèses. Un problème particulier a été examiné en détail : comment 
établir, à partir d'un échantillon aléatoire tiré d'une population, si la moyenne 
de la population est égale ou différente d'une valeur présumée ? Nous avons 
vu que la réponse à cette question s'obtient en calculant un rapport critique et 
en le comparant avec la valeur théorique correspondante à partir de la table de 
Gauss ou de la table t de Student, Alternativement, nous avons vu que le test 
peut être effectué en examinant la position de la valeur présumée par rapport à 
un intervalle calculé à partir des observations de l'échantillon. 

Le problème des tests d'hypothèses peut se poser aussi en relation avec deux 
populations. Nous verrons comment tester si les moyennes de deux populations 
sont égales : nous verrons le cas des populations pairées ainsi que la comparaison 
de pourcentages. 
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13.1 Comparaison de deux moyennes 


Supposons par exemple, qu l'on cherche à déterminer si les moyennes de deux 
populations sont égales ou différentes entre elles. Qu, si la moyenne d’une 
population est inférieure (ou supérieure) à la movenne d'une autre population. 
Pour répondre à cette question, on tire deux échantillons aléatoires, un de chaque 
population, et on compare les deux moyennes d'échantillannages. On détermine 
si la différence entre les deux moyennes observées est suffisamment importante 
pour conclure qu'elle ne peut provenir des aléas de l'échantillonnage, mais d’une 
différence réelle entre les moyennes des deux populations d'origine. On dit alors 
que la différence entre les deux moyennes échantillonnales est “significative”. 

De manière plus précise, le problème du test d'hypothèses concernant la 
comparaison de deux moyennes se pose ainsi : deux populations qu'il s'agit 
de comparer suivent des distributions normales, la première de moyenne y, et 
d'écart-type c:, la seconde de moyenne 4 et d'écart-type #2. Sur la base de 
deux échantillons provenant respectivement de la première et de la deuxième 
population, nous désirons tester l'hypothèse de l'égalité des deux movennes. 
L'hypothèse nulle sera donc la suivante : 


Ho: hi = fu 


et l'hypothèse alternative est hu, 3 Ha, OU Hi > Lo OÙ Hd, < d suivant le cas. 
Voici quelques exemples : 


+ la taille des femmes en Suisse est-elle différente de celle des hommes ? 
Posons u, = la taille moyenne des femmes en Suisse et a = la taille 
moyenne des hommes. L'hypothèse nulle est u, = u, et l'hypothèse alter- 


native jy M ; 


« les ampoules de l'entreprise À ont-elles une durée de vie plus longue que 
celle de l'entreprise B ? Ici u, et u, sont les durées de vie moyennes des am- 
poules produites dans les entreprises À et B, respectivement. L'hypothèse 
nulle est u, = x, et l'hypothèse alternative y, > je ; 


« les étudiants inscrits aux hautes écoles provinciales ont-ils moins d'argent 
de poche que les étudiants des hautes écoles de la capitale * Dans ce 
contexte, a, = la moyenne de l'argent de poche des étudiants des hautes 
écoles provinciales, et a, = la moyenne de l'argent de poche des étudi- 
ants des hautes écoles de la capitale. L'hypothèse nulle est u, = u, et 
l'hypothèse alternative u, < js. 


Plusieurs cas seront distingués dans ce chapitre : deux variances connues : 
une variance connue l’autre inconnue ; deux variances inconnues mais supposées 
égales. 

Le calcul des régions de rejet ou du rapport critique du test dépend de la 
nature des variances des deux populations. 
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« Test bilatéral 
Dans le cas d'un test bilatéral, nous sommes confrontés aux hypothèses sui- 
vantes : 
Ho : Hi —H3=0 
H3 : pe — ju É 0. 


Le rapport critique se calcule suivant La formule : 


| 1 — Xo | 
RC. = . 
TE 
ci 
3 3 
T T 
il 2 
Th,-R. = + —<, 
XX 
(il e‘| "y la 


La valeur de x est évaluée à partir de la courbe de distribution normale. La 
figure 13.1 représente les régions d'acceptation et de rejet de l'hypothèse nulle 
dans le cas d'un test bilatéral. 


Région d'acceptation 


Figure 15.1 : Régions de rejet pour un test d'hypothèses concernant deux 
populations 


On compare le résultat avec la valeur z,,: correspondante de la table de 
Gauss. Si RC. < 2,2, l'hypothèse nulle n'est pas rejetée et dans le cas con- 
traire, RC. > z,,2, l'hypothèse nulle est rejetée. 


« Test unilatéral à droite 
Pour un test unilatéral à droite, les hypothèses sont les suivantes : 


Ho : Hi — jt = 0 
Hi: pu, —ju > Ù. 


Comme le montre la figure 13.2, la région de rejet de l'hypothèse nulle se 
situe à droite de La distribution d'échantillonnage. 
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Région d'acceptation | este du 


Figure 14.2 : Région de rejet, test unilatéral à droite 


Le rapport critique se calcule de la même façon : 


_ À; — X2 
TE ty 


E.C 


et l'hypothèse nulle est rejetée si RAC > 2. 
« Test unilatéral à gauche 


Pour un test uniltéral à gauche, les hypothèses sont les suivantes : 
Ho : h3 —pi3 =0 
Hi : pi — pe € Û 


La région de rejet de l'hypothèse nulle se situe à gauche de la distribution 
d'échantillonnage (Figure 13.3). 


Ron Région d'acceptation 


Figure 13.3 : Région de rejet, test unilatéral à gauche 


Sur la base du rapport critique, l'hypothèse nulle dans ce cas est rejetée si 
RC. < 2... 


Exemple 13.1 Le tableau 13.1 présente deux séries d'observations repré- 
sentant les salaires mensuels d'ouvriers qui travaillent dans deux départements 
distincts d'une entreprise, On désire savoir si les salaires des ouvriers du dé- 
partement 1 sont différents de ceux du département 2. L'étude se base sur deux 


Hidden page 


Comparaison de deux moyennes 293 


et X2 des deux échantillons : 


À 


2 
#, = 45 000 


= 3 033,3 


qui donne la valeur À; — Xa = —-91,66, rx, _ x, = 88,74. 
On obtient donc le rapport critique : 


_ | -91,66 | 


88, 74 
TE 


AC 


Cette valeur étant inférieure à z,,2 = 1,96 pour un seuil de signification 
de « = 5%, l'hypothèse nulle ne peut être rejetée sur la base des résultats de 
l'échantillon. 


13.1.2 #o, et oc: inconnus 


Il arrive souvent que nous ne connaissions pas les valeurs des écarts-types des 
populations susceptibles d'être comparées. Dans ce cas, il est nécessaire d'es- 
timer l'écart-type en fonction des valeurs $, et $3 observées sur La base des 
échantillons. Ceci donne : 


. S Si 
où 
n; "3 2 
SX: - 31) (X; — X2}° 
__ il __ J=1 
si _ fiy — Î ie $ E fa — 1 


La 
Il 
a 
“° 
l 
a 


"LL LH 
x ÿ x 
Le = et Xa — _. 
My rl 


Le test se fait simplement en remplaçant & $,_, par son estimateur &ÿ _%, 
dans l'expression du rapport critique (lorsque 1 et 2 sont connus). 

Il y a toutefois un critère supplémentaire à prendre en compte : lorsque ©; et 
a sont inconnus, Les estimateurs respectifs 51 et 5: sont des variables aléatoires 
dont les valeurs dépendent des échantillons. Ceci introduit une nouvelle source 
de variabilité dans le rapport critique. Ceci devrait être pris en compte en 
remplaçant la valeur critique +, par Étanitns 21, la valeur critique correspon- 
dant à la loi é de student. 
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Toutefois, si n1 et n2 sont suffisamment grands (n, et n2 sont plus grands 
que 30, ou n1 + na plus grand que 40), la valeur de tjs n;4n-2) est appro- 
ximativement égale à celle de 2, et nous pouvons continuer à nous référer à la 
table de Gauss pour trouver la valeur de z correspondant au seuil de signification 
désiré. 

En revanche, si la taille des échantillons n'est pas suffisamment grande, nous 
devrons nous référer à la table de Student pour trouver La valeur de t avec 
mn +2 — 2 degrés de liberté. 

En fonction du genre de test effectué et de la taille des échantillons, nous 
calculerons donc le rapport critique de la façon suivante : 


« Test bilatéral 
= Échantillons de grande taille : 


— Échantillons de petite taille : 


_ Xi — À | 


Ti X2 


R.C. € Éa/3,n-m 2, 


- Test unilatéral à droite 
— Échantillons de grande taille : 


— Échantillons de petite taille : 


X1 — À2 
RC. = ———— < Éanitna—2 
TE, —Xs 


« Test unilatéral à gauche 
— Echantillons de grande taille : 


RC. 


VS En PRE 
FKi-ks 
— Échantillons de petite taille : 
Xi — Xe 


Ne - NRNTE à 
EP (anna) 

Exemple 13.2 L'Office de la Santé affirme que la quantité de nicotine con- 
tenue dans une cigarette de marque À est plus faible que celle contenue dans 
une cigarette de marque B. 
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Pour vérifier cette assertion, on mesure la quantité de nicotine (en mil- 
ligrammes) contenue dans un échantillon de cigarettes de chacune des marques. 
En fonction des quantités de nicotine relevées pour les deux échantillons, nous 
testons l'hypothèse suivante : 


Ho ©: 1 = Ha 
Hi : jy < y. 


Les paramètres y, et j, représentent les quantités moyennes de nicotine 
contenues dans les cigarettes de marque À et de marque B, respectivement. 

Nous effectuons ici un test unilatéral à gauche puisque le test va nous permet- 
tre de confirmer (ou d'infirmer) l'affirmation de l'Office de la Santé qui prétend 
que la première moyenne doit être plus faible que la seconde. 

Ainsi, les résultats, obtenus à partir d'un échantillon de taille n1 = 7 pour la 
marque À et d'un échantillon de taille n3 = 5 pour la marque B, sont représentés 
dans le tableau 13.2 : 


Tableau 13.2 : Quantité de nicotine contenue dans les cigarettes 


Marque À Marque B 


22 21 
23 26 
25 29 
24 24 
23 nt] 
24 

22 

165 127 


Les moyennes obtenues sur la base de ces échantillons sont les suivantes : 


1 
À = = 23,28 
Xz = 2 = 25,40. 


De même, les variantes et écarts-types des deux échantillons sont calculés : 


Fe XX)? 7,43 


Ar + = 1,24 
5, = 1,11 
Xi — X2}° 
gg = 2 RE SUR 9 30 
na — 1 4 


Sa = 43,05. 
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À partir de ces résultats, nous calculons l'écart-type de la distribution d'é- 
chantillonnage des différences des deux moyennes : 


_ 3,3 
ke Va A 
: 1,24 + 9,30 
_ ri Gi 
= 1,43. 


Dans cet exemple, les échantillons étant de petite taille, on utilise la loi de 
Student. Nous trouverons donc la valeur de t dans la table de Student, en 
fonction du seuil de signification désiré et du nombre de degrés de liberté. 

Soit un seuil de signification & = 5%, le degré de liberté est 7 +5 —2= 1Ù. 

Selon La règle de décision, nous ne pouvons pas rejeter l'hypothèse nulle si 
la valeur du rapport critique est plus grande que —#6,0s, 103, et nous la rejetons 
au ra de l'hypothèse alternative dans le cas contraire. Dans cet exemple, 

— X3 = 212 et donc : 


RC, = = = —— = 1,48 > —1,812 = —tj508, 10)- 


n'étant pas dans la région de rejet, nous ne pouvons rejeter l'hypothèse nulle. 
Donc, le résultat des échantillons ne suffisent pas pour conclure que la moyenne 
dé micotine dans les cigarettes de marque À est inférieure à la moyenne de 
nicotine dans les cigarettes de marque B, comme l’affirme l'Office de la Santé, 


13.1.3 1, + inconnus et ©, = 2 


Le cas où les variances des deux populations sont inconnues mais considérées 
comme égales se traite essentiellement tel que précédemment. La seule différence 
réside dans le calcul de l'écart-type de la distribution d'échantillonnage. Puisque 
les variances des deux populations sont supposées égales, nous devons calculer 
une valeur commune pour la variance des deux TRE Cette valeur est 
appelée la variance pondérée, symbolisée par o? = a? = #5. Elle sera estimée 
par VC calculée sur la base des écarts des observations de chaque échantillon par 
rapport à leur moyenne respective : 


Fi 


CXus — À}? + 7 (X2; — Xa)° 
PR buis ” L (= 8? + (n2= DS 


= 


à (n1 — 1} + (no —1) "y + na — 2 


L'écart-type de la distribution d'échantillonnage se calcule donc comme suit : 


S2 Si 1 1 
5 _ 1e] = ee es Le 
TE, -Xs à + Sy = = ps 
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sont indépendantes. Quand l'hypothèse d'indépendance n'est pas justifiée, la 
variance de la différence entre les deux moyennes échantillonnales ne peut être 
considérée comme égale à la somme des variances de chaque moyenne, et de ce 
fait, la formule des régions de rejet et du rapport critique n'est plus valable. 
Dans ce cas, il faut prendre en compte la variance conjointe des deux moyennes 
et modifier en conséquence l'expression de la variance : 


XX; _— +. +7, 2: Cou(X1, X2). 


Le nouveau terme, C'ou(X, X2), exprime la covariance entre À et Xo. Sa 
valeur peut être positive ou négative suivant la nature de la variation conjointe 
des deux variables. 

Cette procédure est particulièrement utile quand la Cov(X1, X2) est positive. 
En effet, une covariance positive entraîne une diminution de la variance due à 
la différence des moyennes ; la variance de la différence, + _ÿ,; Sera inférieure 
à la somme des variances des moyennes. Un tel choix est utile car on obtient 
un gain de puissance parfois appréciable, par rapport À la situation où les deux 
populations sont indépendantes. 


Exemple 13.4 Considérons une étude sur l'efficacité de deux traitements 
pharmaceutiques, À et B, administrés à des patients d'un laboratoire médi-cal. 
Cinq patients ont été choisis pour ce test. On a fait subir à chacun alterna- 
tivement le traitement À et B, en prévoyant un délai suffisant entre les deux 
traitements. Les résultats sont inscrits dans le tableau 13.3 : 


Tableau 13.3 : Résultats relatifs à l'efficacité de deux 
traitements pharmaceutiques 


Patient 
1 ? 3 4 1] 
19,6 12,7 13,7 16,4 20,5 
17,8 16,6 14,6 16,3 18,2 


Il s'agit de tester l'efficacité des deux traitements sur la base des résultats 
observés. On désigne par 4, la moyenne du traitement À et par 44 celle du 
traitement B. Le test d’hypothèses peut étre formulé en terme de u 4 et un avec 
l'hypothèse nulle et l'hypothèse alternative suivantes : 


Ho : Ha = Hg 

Hi: ha <hp 
S'agissant de deux populations pairées (on a administré les deux traitements 
aux mêmes patients), le test d'hypothèses peut être formulé en terme de dif- 


férence entre l'efficacité de À et B selon les hypothèses nulle et alternative sui- 
vantes : 
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attaché à VO est 2n — L Une méthode d'ajustement serait de multiplier les 
éstimateurs de variance par le ratio (f + 3)/{f + 1) où f est le degré de liberté 
correspondant à la variance. Donc, on compare : 


6,12 (4+3) 
= 1,71 
5 (4+1) 
D 100,13 (9+ 3) 
: T 
: = 94,03. 
5 (9+1) 


13.3 Comparaison de deux pourcentages 


La question à laquelle nous sommes très fréquemment confrontés est de savoir 
si la proportion des individus (ou des choses) possédant une certaine caractéris- 
tique dans une population est la même par rapport à une autre. 

Pour répondre à une question de ce genre, nous devons comparer deux pour- 
centages. Nous effectuons donc un test d'hypothèses visant à déterminer, à 
partir de résultats d'échantillonnage, s'il existe une différence significative entre 
les pourcentages observés. 

Si +1 représente le pourcentage de la première population et +2 celui de La 
deuxième population, nous formulons l'hypothèse nulle : 


Ho : T1 = T3 


OL 
Ho : mi — 2 = Ù. 
Si l'hypothèse nulle est vraie, cela signifie que les pourcentages dans les deux 


populations sont identiques. Dans le cas où l'hypothèse nulle est rejetée, trois 
hypothèses alternatives possibles peuvent être considérées : 


H : 1-72 #0 
H1 : T1—72 > 0 
H; : M7 € 0. 


13.3.1 Distribution d’échantillonnage de la différence 
entre deux pourcentages 


Les méthodes exposées dans cette section ne sont valables que lorsque la taille 
des échantillons est suffisamment grande. Le cas où la taille de l'échantillon est 
restreinte ne sera pas considéré. 

Quand la taille de l'échantillon est suffisamment grande, la distribution 
d'échantillonnage de la différence entre deux pourcentages peut étre considé- 
rée corame une distribution normale avec une moyenne 4, _, et un écart-type 
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« Test unilatéral à gauche 


RC = PS | > —zn. 
FA-F 
Nous concluons qu'il n'y a pas de différence significative entre les pourcen- 
tages des deux populations si la valeur observée de PF; — F5, et par conséquent le 
rapport critique, est conforme à la valeur correspondante de la table de Gauss. 
Si cette valeur est en dehors de l'intervalle, ou le rapport critique n'est pas 
conforme, nous rejetons l'hypothèse nulle au profit de l'hypothèse alternative. 


Exemple 13.5 Le rapporteur d'un projet de loi concernant le trafic routier 
pense que son projet sera perçu de manière beaucoup plus favorable par la 
population urbaine que par la population rurale. Une enquête a été réalisée 
sur deux échantillons de 100 personnes provenant respectivement d'un milieu 
urbain et d'un milieu rural. Dans le milieu urbain (population 1), 82 personnes 
étaient favorables à son projet, alors que dans le milieu rural (population 2), 
seulement 69 personnes se sont prononcées de manière positive. 

Afin de confirmer (ou d'infirmer) l'intuition du rapporteur, nous effectuons 
un test unilatéral à droite : 


Ho : T1= 72 
Hi : T1 F2. 


En fonction des pourcentages d'échantillonnage, nous sommes en mesure 
d'estimer la valeur de l'écart-type de la distribution d'échantillonnage : 


à M-(l—m})  pa-(1—pa) 


ne rer 
: 0,82-(1-0,82) | 0,69: (1 — 0,69) 
E 100 100 
= 0,06. 


Si nous effectuons le test avec un seuil & de 5%, la valeur de z est égale à 
1,645. Le rapport critique est : 


PF —-F 0,13 
Ce = 2-9 17. 
RC TP, —P} 0,06 


Cette valeur étant supérieure à z, = 1,645, l'hypothèse nulle est rejetée. 


13.4 Historique 


Il est difficile d'attribuer la paternité de la comparaison de moyennes à une 
personne en particulier. On peut toutefois remonter aux travaux de F, Galton 
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(1902) et K. Pearson (1902) sur la dsitribution de la distance entre la plus grande 
observations d'un échantillon et la suivante. 

Par la suite, W.5 Gosset dit Student (1927) propose un critère pour rejeter 
et répéter des observations dans des analyses de routines. On peut y voir les 
prémisses de l'analyse de populations pairées. En 1995, R.A. Fisher propose 
l'utilisation de test t pour mettre en relief les effects significatifs. Il développera 
ensuite l'analyse de variance, objet du prochain chapitre. 


13.5 Exercices 


1. Deux populations sont définies par les variables aléatoires indépendantes 
Xi et Mo: Xu re Ni, ou) et Xa = Num). Les variances o? et à 
sont connues avec les valeurs «? — 4 et 5 — 9. À partir d'un échantillon 
de n1 = 121 observations extraites de la première population et n3 = 
225 observations de la deuxième population, les moyennes échantillonnales 
suivantes ont été obtenues : 


Xi =15,2 et 2 = 16,1 


(a) Exprimer le test de l'hypothèse nulle que les deux populations ont la 
mème moyenne contre l'hypothèse alternative que les moyennes des 
populations sont différentes, 


{b} Effectuer le test pour un seuil de signification de 5%. 


(c) Ce résultat aurait-il été considérablement modifié si les variables X, 
et Xo avaient suivi une loi de distribution quelconque et non la loi 
normale comme indiqué dans l'énoncé. 


2. Un échantillon aléatoire simple de 1 231 divorces tiré des registres mu- 
nicipaux de l'année 1981 montre que la durée movenne des mariages se 
terminant par un divorce est de 12,9 ans. Une étude similaire, conduite 
en 1985, à partir de 1 743 observations a donné une moyenne de 12,0 ans. 
Il y a lieu de croire que l'écart-type de la durée de mariage n'a pas été 
modifié entre 1981 et 1985 et que sa valeur est æ = 4,2 ans. 


(a) Formuler les hypothèses nulle et alternative pour tester l'affirmation 
que la durée moyenne des mariages se terminant par un divorce a 
diminué entre 1981 et 19856. 


{b} Calculer le rapport critique du test de l'hypothèse nulle pour un seuil 
de signification de 5%. 


(c) Effectuer le test et indiquer la conclusion. 


3. Une étude a porté sur la comparaison du niveau d'éducation atteint par les 
habitants de deux villes. Un échantillon aléatoire simple de 140 personnes 
en fin de scolarité a été sélectionné dans chaque ville. Chaque personne 
a fait l'objet d'un test identique. Les résultats obtenus sont résumés en 
termes de moyenne et variance comme suit : 
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10. 


11. 


Chapitre 13 


(a) Calculer le taux moyen d'emballage pour chaque méthode et exprimer 


la variance de la différence en fonction de la variance æ°. 


(b} Obtenir une estimation de w?, 


(c) Effectuer le test d'hypothèse nulle : les deux méthodes sont égale- 
ment efficaces, contre l'hypothèse alternative : la méthode B est plus 
efficace que la méthode À actuelle. 


. Refaire l'exercice 7 du chapitre précédent pour tester l'hypothèse nulle que 


la proportion des femmes promue est égale à celle des hommes contre l'hy- 
pothèse alternative que le taux de promotion des femmes est plus faibles 
que celui des hommes. 


Pour mieux contrôler l'effet des variations qui pourrait exister entre les 
différentes manières de faire les emballages, les deux méthodes d'embal- 
lage (A, actuelle et B, proposée) auraïent dû être testées avec les mêmes 
ouvriers. En admettant maintenant que cette procédure a été adoptée et 
que des résultats identiques ont été obtenus, refaire l'exercice précédent 
en prenant compte de l'expérience païrée. Les données se présentent donc 
comme suit : 


Ouvrier Méthode À Méthode B 


l 146 179 
2 142 161 
6) 131 152 
À 167 162 
ÿ 144 157 
ü 129 145 
T 152 142 
8 165 162 


La compagnie Paul Lissier produit des feux de circulation ; elle a décidé 
d'ajouter un micro-ordinateur à l'équipement de contrôle de la produc- 
tion afin d'en augmenter l'efficacité. Les micro-ordinateurs de deux fa- 
bricants sont jugés adéquats pour remplir cette fonction. La compagnie 
Lissier achôtera des micro-ordinateurs des deux fournisseurs s'il n'y a pas 
de différence significative de durabilité entre les deux marques. À partir 
d'un échantillon de n1 = 35 micro-ordinateurs de la marque À et d'un 
échantillon de n3 = 32 micro-ordinateurs de la marque B, les moyennes 
d'échantillonnage suivantes ont été obtenues : 


X1 = 2 800 et Xe = 2 750, 


Selon l'avis des fabricants, l'écart-type de la population est de 200 heures 
pour la marque À et de 180 heures pour la marque B. 
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Analyse de variance 


Dans le chapitre précédent, les tests t de Student et : ont permis de déter- 
miner, à partir d'échantillons, s'il y a une différence entre les moyennes de deux 
populations, Lorsque l'on souhaite comparer plus de deux populations, la mé 
thode proposée dans le chapitre précédent n'est plus adaptée. Il s'agit donc de 
développer une nouvelle technique permettant de comparer les moyennes d'un 
nombre quelconque de populations. Cette technique est appelée l'analyse de 
variance. 

Dans les pages suivantes, nous allons aborder le sujet en étudiant tout 
d'abord la comparaison de trois échantillons de même taille avant de présenter 
le cas général où le problème porte sur plusieurs échantillons de taille différente. 
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14.1 Données groupées 


Il arrive fréquemment que les données fournies au statisticien soient regroupées 
en classes selon certains critères tels que l'âge, l'appartenance sociale, la cro- 
vance religieuse, la région géographique, etc. Si nous prenons comme exemple 
une étude sur la fréquence d'utilisation des moyens de transports publics, nous 
pouvons supposer que celle-ci sera différente en fonction de l'âge des personnes 
interrogées, Il est donc naturel de diviser La population en plusieurs classes {par 
exemple : enfants, adultes, personnes âgées) avant d'effectuer l'échantillonnage. 
Sur la base des observations des trois échantillons, la question sera de savoir 
s'il existe effectivement une différence significative d'utilisation des transports 
publics entre les trois estimations. Ceci revient à effectuer un test de comparsa- 
ison de trois moyennes. 

Un autre exemple concerne la comparaison de plusieurs populations engen- 
drées par différents traitements auxquels les individus d'une population d'o- 
* rigine ont été soumis. Un cas spécifique se présente quand nous voulons tester 
la dose appropriée d'un certain médicament visant à guérir une maladie parti- 
culière. Les malades sont divisés en groupes, et on administre à chaque groupe 
un traitement spécifique. Si nous désirons tester cinq doses différentes, nous 
aurons donc cing populations distinctes à comparer. 

D'une façon générale, il s'agit de tester s'il y a une différence entre les 
movennes de plusieurs populations qui font l'objet de l'étude. En formalisant, 
l'hypothèse nulle prend la forme suivante : 


Ho:H = He... Hx 
où & est le nombre de populations considérées, et l'hypothèse alternative est : 
H; : les moyennes des populations ne sont pas toutes égales entre elles. 


Les différences observées sur la base des échantillons indépendants doivent 
être suffisamment grandes pour être considérées comme significatives, Si nous 
posons l'hypothèse que les moyennes des populations sont toutes égales, cela 
signifie donc qu'il ne devrait y avoir aucune différence significative entre les 
différentes valeurs aléatoires observées dans les échantillons. Si l'hypothèse est 
vraie, les différences observées devraient être suffisamment petites pour être 
considérées comme négligeables et donc attribuables aux aléas des échantillons. 


14.2 Comparaison de trois moyennes 


Les principes de la méthode de l'analyse de variance peuvent être exposés à 
travers un exemple simple comprenant trois échantillons de même taille. Cela 
permettra ensuite de développer les aspects théoriques et généraux relatifs aux 
différentes étapes de l'analyse de variance pour £ échantillons de même taille ou 
de tailles différentes. 
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Exemple 14.1 Considérons les données du tableau 14,1 qui représentent 
la productivité de trois variétés de blé étudiées dans des conditions climatiques 
identiques. Pour chaque variété, cinq observations ont été effectuées sur des lots 
de terre différents : 


Tableau 14.1 : Productivité de trois variétés de blé 


Variété 1 Variété 2 Variété 3 


Le problème est de détecter, si elles existent, les différences entre les moyen- 
nes des différentes populations desquelles ces observations ont été obtenues. 
L'hypothèse nulle à tester est exprimée par : 


Ho : jy = Ho = ls. 


L'hypothèse alternative spécifie que la productivité moyenne des trois va- 
riétés de blé ne sont pas toutes égales. 


Ce problème a déjà été rencontré quand il s'agissait de deux populations. 
Dans ce cas, le test se fonde sur la différence entre les deux moyennes d'échantil- 
lonnage comparée avec l’écart-type de cette différence, Quand il s'agit de trois 
movennes (ou plus}, le concept de différence entre les moyennes ne peut pas 
être défini en terme de soustraction entre les movennes. Il est donc nécessaire 
de faire appel à une autre méthode plus générale, appelée analyse de variance. 


L'analyse de variance consiste à comparer la différence entre les moyennes 
d'échantillonnage mesurée en terme de variabilité de ces moyennes par rapport 
à la variabilité existant à l'intérieur de chaque échantillon. La variabilité des 
moyennes d'échantillonnage est une généralisation pour plusieurs populations 
dé la notion de différence entre deux moyennes d'échantillonna-ge dans le cas 
de deux populations. 


Pour bien distinguer ces deux notions de variabilité, considérons les données 
du tableau 14,2. Pour chaque échantillon, Les observations ont la même valeur. Il 
n'y a donc aucune variation à l’intérieur des échantillons (ou des variétés), mais 
il y à une variation entre les variétés, puisque les moyennes d'échantillonnage 
sont différentes. 
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Tableau 14.2 : Exemple de variation nulle à l’intérieur 
Variété 1 Variété 2 Variété 3 


colo Ci Co Co 
en|én on on cn 
11 1 1 = 


Moyenne 


Dans le tableau 14.3, en revanche, la movenne de chaque variété ou de chaque 
groupe est identique. Il n'y a donc pas de variation entre les groupes, mais il 
+ à une variation à l'intérieur des groupes puisque toutes les observations dans 
chaque groupe n'ont pas la même valeur. 


Tableau 14.3 : Exemple de variation nulle entre Les groupes 
Variété L Variété 2 Variété 3 


5 6 fi 
d 8 2 
6] 4 T 
G 3 6 
Hi] 4 3 
Moyenne à à d 


En pratique, les observations obtenues ne seront ni exactement identiques 
pour chaque groupe comme les données du tableau 14.2 mi de moyennes égales 
comme celles du tableau 14.3 : elles seront hétérogènes comme les données du 
tableau 14.1. On observera donc à la fois une variation entre les moyennes des 
variétés et une variation à l'intérieur de chaque variété. Le problème sera de 
détecter s'il existe une différence entre les moyennes tout en tenant compte de 
la variabilité existant entre les observations à l'intérieur de chaque variété. 

Nous allons illustrer la méthode de calcul des différentes variabilités en se 
référant à l'exemple 14.1. Il s'agit d'abord de calculer la variation de l'ensemble 
des échantillons et ensuite de chaque échantillon séparément. 


e La moyenne globale, notée X, est la somme de toutes les observations 
divisée par le nombre d'observations : 


Dans le cas présent, ce résultat peut être aussi obtenu en calculant la 
somme des chservations dans chaque échantillon, et ensuite la moyenne 
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de ces trois sommes : 


X = 


25+35+15 T5 


= — = 09. 


15 
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« La variation globale des échantillons est calculée en additionant les écarts, 


élevés au carré, de toutes les observations par rapport à la moyenne glo- 
bals, Elle est appelée somme des carrés totale, et est dénotée par 
SCtot. La valeur SC;,,+ mesure la variation totale de l'ensemble des ob- 
servations par rapport à la moyenne globale. 
Ces résultats sont présentés dans le tableau 144. La SC:,+ correspond 
donc à : 

SCtot = 6 + 24 + 26 = 56. 


Tableau 14,4 : Variation de tous les échantillons 


Variété L Variété 2 Variété 3 
(3-54 (6-5 =1 (3-5)? =4 
(6-5)=1 (8-5)=9 (3-5)7=4 
(5-5 0 (7-54 (2-5) =9 
(6-5)%=1 {8-5} =9 (2-5}*=9 
(5-5) =0 ({6—-5}?=1 (5-5)? =0 
Somme 6 24 26 


« Nous obtenons ensuite une mesure de la variation à l'intérieur de chaque 
échantillon. Le tableau 14.5 montre le calcul de la somme des écarts élevés 
au carré de chaque observation par rapport à leur moyenne respective. Au 
bas de chaque colonne, on donne la somme des écarts au carré relative à 
chaque groupe. La somme pour les trois échantillons, appelée somme des 
carrés à l’intérieur des groupes, est dénotée par SC; et est égale à : 


SCint = 6+4+6 = 16. 


Tableau 14.5 : Variation de chaque échantillon 


Variété 1 Variété 2 Variété 3 
(3—-5)*=4 (6-7 =1 (3-3) = 
(6-5) =1 (8-72=1 (3-3) =0 
(5-5) =0 (7-7#=0 (2-3) =1 
(6-5)? =1 (8—7)2=1 (2-3) —1 
(5-5) =0 (6-7) =1 (5-3) =4 
Somme 6 À [a] 


« La variation entre échantillons se calcule 4 partir des moyennes de chaque 
groupe, respectivement 5, 7 et 4 La somme des écarts élevés au carré 
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des moyennes de chaque groupe par rapport à la moyenne globale de 5 est 
égale à : 
(5-5) +(7-5)+(8-5) =0+4+4-8. 


Afin d'être comparable avec la somme des carrés à l'intérieur des groupes, 
la mesure de variation entre les moyennes (la somme 8} doit être ajustée 
par le nombre d'observations. Dans le cas de la somme des écarts élevés 
au carré des moyennes, l'unité est une moyenne et fait donc référence à 
plusieurs observations (5), alors que dans le cas de la somme au carré 
à l'intérieur des groupes, l'unité est l'observation elle-même. Par con- 
séquent, en vue de comparer la somme des écarts au carré des moyennes 
des trois groupes avec 8C;.+, nous devons la multiplier par 5, le nombre 
d'observations dans chaque échantillon. Cette somme s'appelle somme 
des carrés entre les groupes et est dénotée par SC,..+. On obtient 
donc : 
SCant = 8:5 = 40. 


Les trois mesures de variation, SCiot: SCant et SC, sont alors comparables 
et peuvent être résumées dans un tableau (Tableau 14.6) permettant de dégager 
le lien existant entre les trois mesures de variation. 


Table 14.6 : Somme des carrés (Exemple 14.1) 


Source de Somme des 
variation carrés 
Entre les groupes 40 
Intérieur des groupes 1ü 
Total 56 


En effet, nous cbservons que l'addition des deux premières sommes donne 
la dernière. Ceci démontre que la variation totale est décomposée en deux 
parties : la variation due aux différences entre les moyennes d'échantillonnage 
et la variation due aux observations 4 l'intérieur des échantillons. En terme 
svmbolique, nous avons l'identité suivante : 


SCtot = SCent + SCint: 


La somme des carrés entre les groupes (SCont) contient 3 écarts par rapport 
à la moyenne globale. Les trois écarts sont donc liés entre eux par une relation : 
ils s'ajoutent à zéro. On dit que le nombre de degré de liberté associé à SCont 
est égal à 3 — 1 = 2 La variance d'échantillonnage basée sur cette somme de 
carrés est donc égale à : 


ent — 3—1 5 = À. 


La somme des carrés à l'intérieur des groupes est formée de trois sommes de 
carrés d'échantillonnage. Chacune contient 5 écarts au carré et par conséquent 
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Fig in-x) =Fi0,0s, 2, 19 = 4,89. 


Le ratio calculé F.=15,04 étant nettement supérieur à la valeur de la table, 
nous devons donc conclure qu'il y a une réelle différence de productivité entre 
les trois variétés de blé considérées. 

Les résultats obtenus sont présentés dans un tableau d'analyse de vari- 
ance souvent appelé ANOVA (Tableau 14.7). Les variances $£. et 8°, sont 
appelées moyennes des carrés car elles sont des moyennes d'écarts au carré. 
Il faut noter qu'en calculant ces “moyennes”, nous ne divisons pas la somme des 
carrés par le nombre d'observations, mais par le nombre de degrés de liberté 
associé à la somme des carrés. 


Tableau 14.7 : Tableau d'analyse de variance 


Source de Degrés de Somme Moyenne F& 
variaut bo liberté des Carrés des Carrés 

L ; k Æ Z 2 2 
Entre les groupés k—1 Sent Sent Sent! S int 
À l'intérieur des groupes n—k SC nt ë 


Total n—1 SCtat 


14.3 Comparaison de plusieurs populations 


Quand il s'agit de comparer les moyennes y, et u, de deux populations, la 
procédure à suivre (décrite dans le chapitre 14) consiste simplement à exami- 
ner la différence des moyennes d'échantillonnage observées à partir des deux 
populations respectives. 

La généralisation de cette procédure à trois populations ou plus, cependant, 
n'est pas évidente. Car, alors que la différence entre deux valeurs numériques 
est bien définie, cette notion n'est pas clairement déterminée quand il s'agit de 

trois valeurs ou plus. 

| Dans l'exemple 14.1, la notion de différence entre trois moyennes a été définie 
en terme de variance. Donc, pour comparer les movennes des trois échantillons, 
on à calculé la variance de ces movennes par rapport à la moyenne globale 
LL Si les moyennes sont toutes proches Les unes des autres, leur variance est 
faible et vice-versa. Au contraire, si les moyennes sont sensiblement différentes 
les unes des autres ou bien qu'au moins une valeur est distante de l'ensemble 
des autres, É R pourrait avoir une valeur élevée. 

Les valeurs pour lesquelles la variance est calculée sont des moyennes et 
dépendent donc elles-mëmes des valeurs observées dans les échantillons. Par 
conséquent, s'il n'y a pas de différence entre les moyennes, les valeurs d'échan- 
tillonnage peuvent tout de même être différentes entre elles. Pour prendre en 
compte cet aspect dans l'évaluation de : PS on ajuste la variance entre les 
movennes par la variance des valeurs d'échantillonnage provenant de trois po- 
pulations potentiellement différentes. Cet ajustement se fait à partir d'une 
quantité dénotée SE + qui mesure l'écart de chaque valeur d’échantillonnage à 
sa Moyenne. 
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La grandeur ou la petitesse de la variance des moyennes d'échantillonnage 
est donc établie en fonction de la variance des valeurs d'échantillonnage qui 
ont servi à calculer les moyennes observées. L'ajustement se fait en utilisant le 
ratio : 

F= St 

Le ratio F détermine si les moyennes d'échantillonnage sont suffisamment 
différentes entre elles (en relation avec la variation des valeurs d'échantillon- 
nage) et permet de conclure si les populations d'origine ont elles-mêmes des 
moyennes différentes, ou si la différence observée peut être attribuable au hasard 
de l'échantillonnage. Cette méthode de calcul de la variance des valeurs d'échan- 
tillonnage est appelée “analyse de variance” et peut se généraliser pour un nom- 
bre quelconque de populations avec des échantillons de tailles différentes, 


14.4 Éléments de l’analyse de variance 


Soit & le nombre de populations que nous désirons comparer en fonction de leur 
moyenne respective. L'hypothèse nulle stipule que les échantillons indépendants 
proviennent de & populations dont les moyennes sont identiques : 


Ho: ==... = pe. 


Il suffit donc qu'une moyenne soit différente de toutes les autres pour que 
l'hypothèse nulle soit rejetée, 

L'analyse de variance qui permet de tester cette hypothèse s'effectue sur la 
base de £ échantillons de taille n3,n92,:--,n4 pris dans & populations dont les 


movennes sont respectivement fi, fé, °°", lp 
Les conditions d'application de l'analyse de variance sont les suivantes. 


1. Les échantillons doivent être choisis aléatoirement et tous les échantillons 
doivent être indépendants 


2. Les distributions des populations considérées doivent étre normales ou 
approcmativement normales 


3. Les populations d'où sont prélevés les échantillons doivent posséder la 
même variance æ?, c'est-à-dire : 


D 8 pi — — FE 
MT = Ta. = TE 


où £ = nombre de populations. 
En terme général, nous dénotons les observations de chaque échantillon par : 
Xi Xe, UE A 


ä étant égal à 1 pour le premier échantillon, 2 pour le deuxième et # pour le 
dernier. 
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La moyenne du à échantillon est donc : 


ÿ, = at + Aime i=1,2,.--,k 


Ti 


et la moyenne globale : 


Ha + Kia + + Nan 
A +0 +: + 


Le 
ni XX: + no Xo +: + ne Xe 
TL 


où n= MN + no +---+ on, est le nombre total des éléments des Æ£ échantillons. 
Nous nous intéressons à trois types d'écart : 


« chaque observation par rapport à sa moyenne respective, 


Xu-kRii=l-.nmeti=l,..….,#: 


« chaque moyenne d'échantillonnage par rapport à la moyenne 
Xi-X ; 


* chaque observation par rapport à la moyenne globale 


LOPIEN à 


Ainsi, chaque observation X;; peut se décomposer de la manière suivante : 


X = X+(X- X)+ (Xi — À) i= 1,2,---,% 
Î 1,2,---," 


En d'autres termes, cela signifie : 


Observation de la jème unité du ième groupe (X;;) 


Movenne globale {X} 
+ 
Écart de la moyenne du groupe 
par rapport à la moyenne globale (X; — X1} 
+ 
Écart de l'observation 
par rapport à la moyenne du groupe (X;; — X;} 


Hidden page 


322 Chapitre 14 


Cette propriété montre la raison pour laquelle la technique de comparaison 
de moyennes est appelée analyse de variance : la somme des carrés totale, 
SCtot, est décomposée en deux parties, une qui mesure les différences entre les 
groupes SCant, et l'autre qui mesure les différences à l'intérieur des groupes 
SCint. En “analysant” la variance, nous comparons la grandeur de ls somme 
des carrés entre les groupes avec la somme des carrés à l'intérieur des groupes. 
Nous cherchons donc à répondre à la question suivante : la variabilité parmi 
les observations des différents groupes est-elle plus grande que celle qui serait 
attendue si toutes les observations provenaient de groupes ayant une moyenne 
commune ? 

Les deux termes de la somme ci-dessus amènent à deux estimations de vari- 
ance : variance à l'intérieur des groupes et variance entre les groupes. Si l'esti- 
mation basée sur la somme des carrés entre les groupes est beaucoup plus grande 
que l'estimation basée sur la somme des carrés à l'intérieur des groupes, cela 
signifie que la variabilité des moyennes échantillonnales ne peut pas être “ex- 
pliquée" par la variabilité d'échantillonnage attendue lorsque les observations 
sont issues de populations caractérisées par une moyenne unique, et nous de- 
vrons donc conclure que les échantillons proviennent de populations différentes. 
Mous examinons ci-dessous chacune de ces deux variances. 


14.4.1 Variance à l’intérieur des groupes 


La variance à l'intérieur des groupes est une estimation de &°, la variance de la 
population basée sur l'ensemble des observations de £ échantillons : 


E 1" 

SOS xs — À} 
IR SCint cm 
int” # degrés de liberté k 


Yu —1) 


Le nombre de degrés de liberté associé à St est égal à : 


k 


Sm-l)=n-k. 


14.4,2 Variance entre les groupes 


Considérons maintenant les £ moyennes d'échantillonnage X:, Xo, ---, X4. 
Chaque moyenne d'échantillonnage est une moyenne d'un échantillon de n; ob- 
servations de la population de moyenne 4, et de variance a*. 

Nous savons que la movenne d'un échantillon aléatoire de n; observations 
suit une distribution d'échantillonnage de moyenne égale à la moyenne de la 
population, et de variance égale à la variance de la population divisée par nm. 
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Donc l'élément £; de la somme des carrés : 


k 
SC ent = mt a X)° 
i=1 
suit une distribution de moyenne ui et de variance e?/n;. La multiplication par 
ñ; annule le dénominateur et n;(X; — X)* donne un élément de l'estimation de 
2 
*, 

Pour obtenir une estimation de variance comparable à celle de la variance 
SCint, il faut tenir compte des degrés de liberté correspondant à SCont. Étant 
donné que £ valeurs interviennent dans SC, et que la somme de ces & valeurs 
est par définition zéro, il y a en réalité & — 1 chiffres indépendants et le nombre 
de degrés de Liberté est £ — 1. On obtient donc : 

CSS SCent 
ent — 1 


qui est un estimateur de «° avec À — 1 degrés de liberté. 


14.4.3 Table de Fisher (Table de F) 


Si l'hypothèse nulle est fausse, c'est-à-dire si les moyennes des £ populations ne 
sont pas identiques, les échantillons auront tendance à étre davantage différents 
que si l'hypothèse était vraie ; ce qui tend à augmenter Sént: En d'autres 
termes, l'expression Sent n'estime o° que si l'hypothèse nulle est vraie. Elle est 
en moyenne plus grande que «° si l'hypothèse nulle est fausse. 

En revanche, SE est une estimation de æ?, que l'hypothèse nulle soit vraie 
Qu MON. 

Ces estimations sont comparées en fonction du ratio F : 


Fe = ou LES 


Nous rejetons l'hypothèse nulle si le ratio F, calculé est trop grand. Pour 
tester l'hypothèse de l'égalité des moyennes 4 un seuil de signification à, nous 
comparons la valeur de F; avec la valeur théorique de Fi, 1 n-x) donnée par 
la table F, en utilisant le nombre de degrés de liberté et le seuil de signification 
appropriés. 


14.4.4 Tableau d'analyse de variance (ANOVA) 


Les différents élements de l'analyse précédente peuvent étre résumés dans un 
tableau d'analyse de variance (Tableau 14.8). 


Tableau 14.8 : Tableau d'analyse de variance 


Source de Degrés de Somme Moyenne F; 
variation liberté des Carrés des Carrés 

Entre les groupes k —1 Cent Sont Sont EL 
À l'intérieur des groupes n—k#k SCint gi 


Total n—1 SCtot 
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Et : 
ÿ$ = Jar + : + 24 = 72,07. 


La somme des écarts au carré des moyennes échantillonnales par rapport à 
la moyenne globale est égale à : 


NT: - À} 


is] 

5 (67,4 — 72,07)* + 6 - (85 — 72,07) 
+4 - (58,5 — 72,07)? 

1 848, 73. 


SCent 


I 


La variance entre les groupes est donc : 


SCent _ 1 848, 73 


Sent = k—1 3-1 


= 924, 36. 


+ Calcul de [8 variance à l’intérieur des groupes 


Le calcul de la variance à l'intérieur des groupes est plus simple si elle est obtenue 
par soustraction à partir de la variance totale, La variance totale est donnée 
par : 


sou = DE -+ HE 


1 j=1 i=l j=1 


— (642 +792 + ...+ 407 + 642) 
(644724. +40+ 64) 

= 80 499 — (1/15) - 1 081° 

= 2 594,98. 


Utilisant le fait que La somme totale des carrés est égale à la somme des 
carrés entre les groupes et la somme des carrés à l'intérieur des groupes, nous 
avons l'identité : 


SCint = _ SCtot — SCent 


qui donne : 


SC: = 2 594,93 — 1 848,73 


= 746,20. 


int 


La variance à l'intérieur des groupes est donc égale à : 


2 lt — = 
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Le test de LSD peut être appliqué à l'étude statistique portant sur plusieurs 
groupes, ou, dans le contexte d'analyse d'expérience, sur plusieurs traitements. 

Dans le contexte d'analyse de variance, on rappelle que l'hypothèse de l'é- 
galité de plusieurs moyennes est testée en calculant la valeur de F, : 


— & a 
Fe = Sent/Sint 


qui est comparée avec la valeur théorique lue dans la table F, Si la valeur calculée 
de F'est plus grande que la valeur de la table, nous rejetons l'hypothèse nulle et 
concluons qu'il existe une différence significative entre les moyennes. La question 
est à présent de déterminer entre quels groupes se trouvent les différences. 

La méthode LSD va nous permettre de répondre à cette question en effec- 
tuant des comparaisons de moyennes de groupes, pris deux à deux. 

Si nous avons £ groupes, nous aurons donc : 


kÈ k! 
a-(5)-78-5 


comparaisons à effectuer. 

Le but de la méthode est de déterminer, pour chaque paire de groupes, la 
différence maximale qu'il peut y avoir entre les deux moyennes d'échantillon- 
nage pour pouvoir considérer cette différence comme négligeable et conclure 
qu'il n'y a pas de diflérence significative entre les deux moyennes. 

Cette méthode est exposée ci-dessous à l'aide des données de l'exemple 14,27. 
Les données sont présentées dans le tableau 14.9 et l'analyse de variance dans le 
tableau 14.10. On a vu que la valeur F, = 14,86 est supérieure 4 F6 05, 2, 12) = 
3,89, ce qui signifie qu'il y a une différence significative entre les movennes. 

Comme nous l'avons dit, la méthode LSD consiste à comparer chaque paire 
de moyennes, Dans notre exemple où nous avons trois groupes différents, nous 
aurons donc 3 comparaisons à effectuer. (Le nombre de combinaisons de 2 
“objets” parmi 3 est égale à C? = 31/21. (3 — 2)! = 3). 

La méthode LSD consiste à faire un test d'hypothèses pour chaque couple 
de groupes (1, j), à # j: 

Ho : n;= H; 
H; : E É hH;- 


À partir des résultats obtenus pour les échantillons des groupes à et j, on 
calcule les moyennes échantillonnales X; et X, et leur différence (X; — À). La 
variance de cette différence est égale à : 


l L 
a 1 
TT à — 1 — + — TT 
Xi À; (2 a) 
dont une estimation est donnée par la variance entre les groupes du tableau 
d'analyse de variance : 
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La valeur minimale LSD qui permet d'effectuer le test d'hypothèses d'égalité 
des moyennes ui, et 4, est simplement l'écart-type de la différence entre les deux 
movennes multiplié par la valeur de t correspondante de la table de Student : 


LSD = l{a/2n-k) ; LEURS VE 


Dont, après avoir trouvé cette valeur pour chaque paire de moyennes, on 
la compare à la différence observée entre les deux moyennes échantillonnales. 
Si cette différence est supérieure à la valeur de LSD, cela signifie qu'il y a une 
différence significative entre les deux moyennes considérées. En revanche, si 
cette différence est inférieure à la valeur du LSD, nous pourrons considérer que 
la différence entre les deux moyennes n'est pas significative. 

Cette méthode appliquée à la comparaison des deux premiers groupes de 
l'exemple numérique précédent donne les résultats suivants. En se référant aux 
valeurs du tableau 14.10, nous trouvons que l'écart-type de la différence entre 
les moyennes des groupes 1 et 2 est égal à : 


L 1 
. = 3 —i — 
Fxi—k, = nt (= + ñ; ) 


IL 

[ep 

ts 

=] 

[a 2 
A 
Cr | mi 

L 
œ 
LL) 


= 4 ff. 
Avec un seuil de signification & = 5%, la valeur du LSD est donc : 
LSD = t{u/an-) : %,-&, 
É(o,o2s, 193 " 4, F7 
2,179 -4,77 
10, 40. 


Cette valeur doit être comparée avec la différence observée entre les moyennes 
échantillonnales du groupe let du groupe 2 qui vaut : 


|A — Lo [el E1 — #0 11 67,4 — 85,0 [= 17,6. 


Comme la différence entre les deux moyennes d'échantillonnage 17,6 est plus 
grande que la valeur du LSD=—10,40, nous devons conclure qu'il existe une dif- 
férence significative entre La moyenne du groupe 1 et la moyenne du groupe 2. 

Cette comparaison peut s'effectuer pour d'autres couples, notamment pour le 
groupe let le groupe 4, le groupe 2 et le groupe 3. Les résultats pour l'ensemble 
des comparaisons sont donnés dans le tableau 14.11. 


Tableau 14.11 : Résultats obtenus par la méthode LSD 


Groupes Tÿ, À; 0,025. 12 LSD | À; _ X j| Différence 
let 2 4, TT 2,179 10,40 17,6 significative 
let 3 5, 29 2,179 11,53 8,9 non significative 


2et 3 9, 09 2,179 11,09 26,5 sigmficative 
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(e) On dénote par X;;, le nombre de kilomètres parcourus par litre dans 
le jème essai par la voiture à (i=A, B, C). Vérifier l'identité : 


XX = XL + X, — À: 


Étant donné qu'il y a une certaine variation entre les essais, la com- 
paraison faite dans (d} peut étre due au hasard et les différences 
observées peuvent être non significatives. Pour exa-miner ceci, on 
procède à une analyse de variance. 


{f) Calculer La variation des kilomètres parcourus pour les voitures de 
chaque marque. Ceci est appelé la somme des carrés à l'intérieur des 
marques (SCinc)- 

(g) Calculer ensuite la variation des kilomètres parcourus entre les trois 
marques. Ceci est appelé la somme des carrés entre les marques 
(SCent 


(h} Calculer enfin la variation des kilomètres parcourus entre les dif- 
férents essais pour les trois voitures, toutes marques confondues. Ceci 
est appelé la somme des carrés totale (SC). 


(i} Vérifier la relation : 


{j} Déterminer les degrés de liberté correspondant à chacune des sommes, 
SCtot: SCent €t SCint- Que signifient ces degrés de liberté 7 


(k) À partir des résutats (f)-(j}, former le tableau d'analyse de variance 
et calculer les variances 52, et S°.. 


(1) Comparer le ratio : 
Le = Sént / nt 
avec la valeur appropriée de la Table F, pour un seuil de signi-fication 


a=5%. Conclure en fonction des hypothèses nulle et alternative ex- 
primées en (a). 


2. Trois espèces de chardon sont cultivées dans un jardin botanique : chardon 


laineux, chardon des champs et chardon argenté. On cherche un indica- 
teur quantitatif qui permettrait de distinguer les différentes espèces. La 
longueur de la feuille au moment de la floraison est considérée comme un 
indicateur fiable à cet effet. Pour vérifier cette suggestion, on a mesuré 
au moment de la floraison la longueur des feuilles d'un échantillon de 150 
plantes (50 chardons laineux ; 50 chardons des champs et 50 chardons 
argentés). Les résultats en termes de moyenne et de variance d'échantil- 
lonnage sont présentés ci-dessous : 
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chardon chardon chardon 
laineux des champs argenté 


i 1 2 3 
n 50 50 50 
X, = L X4 8,22 7,90 8,57 
LE, ….— Ÿ#,12 
s? _ Ci = Xi) 4,63 4,72 491 
nm — ] 


j=i 


Ài;= la longueur de la feuille au moment de la floraison de la à espèce, 
j° plante de l'échantillon. 


(a) Calculer la moyenne globale de la longueur des feuilles pour l'en- 
semble de l'échantillon. 


{b} Calculer La somme des carrés entre Les trois espèces de chardon par 
la formule : 


3 
SCant = 7 (AA. 
i=] 
{c) Véribier la relation suivante : 


ÿ nn 
D SX — Fi)? = (n — 1)188 + 52 + 52 


=] ji 


et l'utiliser pour calculer la somme des carrés à l'intérieur des espèces, 


(d) Établir le tableau d'analyse de variance et calculer le ratio : 
Fe = Sent /Sint 


pour tester l'hypothèse nulle que les feuilles au moment de la florai- 
son ont la même longueur en moyenne pour les trois espèces, contre 
l'hypothèse alternative que les longueurs sont en moyenne différentes. 
Utiliser le seuil de signification de 5%. 

(e) Peut-on conclure que la longueur de la feuille au moment de la flo- 


raison est un indicateur fiable pour distinguer les trois espèces de 
chardon ? 


3. Compléter les tableaux suivants d'analyse de variance : 


S.V. dl. SC MC F. 
Entre les groupes 82,80 
Intérieur des groupes 4,32  jf{j} 


Total 19 152,00 ////) 11} 
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AA 


Entre les groupes 


Intérieur des groupes 


Total 


4. À partir des résultats suivants : 


T1 = 2.4 


$C 


MC 
62,0 
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IF} 
358,00  //7/1 FI] 


Fa = 8,0 3—=4,2 Æ4 — 5,4 


et DIX = 652, compléter le tableau d'analyse de variance : 


S.V. 


Entre les groupes 


Intérieur des groupes 


Total 


SC MC 


HELEL 
PEER LILI 


Fe 


5. R.A. Fisher (1890-1962) est un des grands statisticiens de l'âge moderne. 
Il a travaillé de nombreuses années à développer entre autres des méthodes 
statistiques pour les plans et analyses d'expériences agricoles. Dans une 
de ses premières expériences, il a été amené à tester l'effet de 6 types 
d'engrais sur la récolte de pommes de terre. Les résultats suivants ont été 


obtenus : 


Engrais fumier 
Chloride 


Sulphate 
25,3 
28,0 
23,3 
20,0 
22,9 
20,8 
22,3 
21,9 
18,3 
14,7 


(a) On désigne par 4, Us 


26,0 
27,0 
24,4 
19,0 
20,6 
24,4 
16,8 
20,9 
20,3 
15,6 


Basal 
26,5 
23,8 
14,2 
20,0 
20,1 
21,8 
21,7 
20,6 
16,0 
14,3 


Engrais non fumier 


Sulphate  Chloride 


23,0 
20,4 
18,2 
20,2 
15,8 
15,8 
12,7 
12,8 
11,8 
12,5 


18,5 
17,0 
20,8 
18,1 
17,5 
14,4 
19,6 
13,7 
13,0 
12,0 


Basal 
9,5 
6,5 
4,9 
T,T 
4,4 
2,3 
4,2 
6,6 
1,6 
2,2 


Li les poids moyens de pommes de terre 


(en livres) pour les récoltes obtenues en utilisant les différents types 
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(g) Utiliser les résultats (e) et (f) pour expliquer le nombre de degrés 
de liberté pour chaque élément du tableau d'analyse de variance de 
l'exercice (5). 


T. Dans un laboratoire, on a testé quatre traitements différents contre l'obésité 
dont un placebo. Dix-neuf personnes en traitement contre l'obésité ont 
été sujets de l'expérience. À part les traitements médicaux qui ont été 
différents, les sujets ont subi un régime alimentaire identique, La perte 
de poids après 8 jours a été enregistrée et les résultats suivants ont été 
obtenus. 


Traitement 
Placebo 1 2 3 
0,6 1,3 18 5,7 
0,1 —0, 1 1,1 9,2 

0,8 —0,3 2,5 

0,9 2,2 

1,2 —9,1 


{a) Établir le tableau d'analyse de variance pour tester s'il y a une dif 
férence entre les traitements. Utiliser un seuil de signification de 5% 
pour le test, 


(b} Déterminer lesquels des traitements 1, 2 ou 3 sont sigmificativement 
différents du placebo. 


(c) Les traitements 1, 2 et 4 sont-ils significativement différents entre 
eux ? 


8, La durée de chômage de trois catégories socio-professionnelles (ouvrier 
non qualifié, ouvrier qualifié et cadre) est résumée dans le tableau suivant 
sous la forme d'une distribution de fréquences. L'échantillon est composé 
de n1 = 26 cadres, n3 = 50 ouvriers qualifiés et n3 = 109 ouvriers non 
qualifiés. 


Établir le tableau d'analyse de variance pour tester si la durée de chômage 
est différente pour les différentes catégories socio-professionnelles, Utiliser 
un seuil de signification de 5%. 


Analyse de variance 


Nombre de chômeurs 
Cadres  Cuvriers Ouvrière 
qualifiés non qualifiés 


Durée de chômage 


(nbre de semaines) 


2 5 Il 2 
3 3 2 d 
4 8 2 4 
ü T 5 7 
ü 2 s ü 
7 Ï 13 22 
E 10 21 
q 3 13 
1û 5 13 
{1 1 ü 
12 r T 
14 1 3 
14 1 
Total 36 5Û 109 


FRANCIS GALTON 


(1822-1911) 


Cousin de Charles Darwin, Francis 
Galton est né en 1922 en Angleterre, 
près de Birmingham. Son intérêt pour la 
science se manifeste tout d'abord dans 
les domaines de la géographie et de la 
météorologie. Il s'intéresse à la géné- 
tique et aux méthodes statistiques dès 
1864. 


Galton fut un proche ami de Karl 
Pearson avec qui il fonda la revue 
“ Biométrika ”, Son “ Eugenics Record 
Office ” fusionna avec le laboratoire de 
biométrie de K. Pearson et prit le nom 
de “ Galton Laboratory ”, Il mourut en 
1911, laissant derrière lui plus de 300 
publications dont 17 livres, notamment 
sur les méthodes statistiques relatives à 
l'analyse de régression et à la notion de 
corrélation qui lui est attribuée, 
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Analyse de régression et 
corrélation 


Couvrant de multiples domaines des sciences, l'analyse de régression peut être 
définie comme la recherche de La relation stochastique qui lie deux où plusieurs 
variables. 

La corrélation, pour sa part, définit un indice permettant de mesurer la degré 
de liaison ou l'intensité de la relation entre deux variables. 

Dans ce chapitre, nous introduisons d'abord le modèle de régression linéaire 
simple puis son estimation par la méthode des moindres carrés, Nous étendons 
ensuite l'analyse à la régression multiple avant de conclure par l'analyse de 
corrélation. 
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15.1 Relation entre deux ou plusieurs variables 


À partir d'un échantillon de données, l'analyse de régression cherche à déter- 
miner une équation d'estimation décrivant la relation entre deux variables (ou 
plus). Le but sera donc d'estimer La valeur d'une des variables à l'aide des 
valeurs de l’autre (ou des autres). La variable estimée est dite dépendante et 
on la symbolise généralement par Ÿ. En revanche, la variable qui explique les 
variations de Ÿ est dite indépendante et est symbolisée par X. 

Le but de l'analyse de régression n'est pas uniquement de déterminer l'équa- 
tion de la variable dépendante, mais aussi d'établir le degré de fiabilité de l'es 
timation et par conséquent, des prédictions que l'on a obtenues grâce à cette 
équation. L'analyse de régression permet aussi d'examiner si les résultats sont 
significatifs et si la relation entre les variables est réelle ou n'est qu'apparente. 


15.1.1 Diagramme de dispersion 


En rapportant sur un graphe les données d'un échantillon, on obtient le dia- 
gramme de dispersion, sur lequel chaque point représente un couple de valeurs 
observées de la variable dépendante et de la variable indépendante. Deux ex- 
emples sont donnés dans les figures 15.1 et 15.2. Le graphe aide à déterminer 
sil existe une relation entre les deux variables et le type d'équation approprié 
(linéaire, non linéaire). Par exemple, la figure 15.1 semble indiquer une relation 
linéaire, alors que la figure 15.2 semble représenter une relation non linéaire. 
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Figure 15.1 : Diagramme de dispersion : cas d'une relation linéaire 


15.1.2 Relation exacte (modèle déterministe) 


On peut définir une relation entre deux variables X et Y : 
YM=a+hX; 


où «a et b sont des constantes, appelées paramètres. La relation entre les deux 
variables est représentée par l’ensemble des couples (X,, ), qui constitue toutes 
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L'indice à correspond à une observation particulière, par exemple l'année 
1960 dans un échantillon de 20 observations annuelles, La signification des 
autres termes est : 


Y;, variable dépendante ou variable expliquée : 

X;, variable indépendante ou variable explicative ; 

&, un terme d'erreur aléatoire non observable : 

a,b, des paramètres à estimer. Leurs estimateurs sont notés à et b. 


La relation entre Les deux variables est représentée graphiquement à la figure 
15.3. 


Figure 15.3 : Droite obtenue par régression linéaire 


La valeur de la plus haute puissance d'une variable indépendante du modèle 
est appelée l'ordre du modèle. Par exemple : Y, = a + bX; + cX2 + 6; est un 
modèle de second ordre. 

Les valeurs de a, b et € sont inconnues dans l'équation (15.1), mais elles sont 
fixes, alors que € varie d'une observation à l'autre. Seules les valeurs de a et 
b sont à estimer. Soient à et b les estimateurs de à et b respectivement, nous 
ÉCrIVONS : 

Ÿ =à+bxX (15.2) 


où Ÿ est la valeur prédite pour un X donné lorsque à et à sont déterminés. 

Le problème revient à trouver les paramètres a et b de la droite K = a +BX, 
qui “approche le mieux" la dépendance des Y sur les X°, c'est-à-dire qui “s'écarte 
le moins" du nuage de points (X;, K). 


15.3 Méthode des moindres carrés 


Nous nous basons sur la méthode des moindres carrés pour l'estimation des 
paramètres, en choisissant les valeurs à et b telles que la distance entre Y; et 
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15.4 Précision de la droite de régression estimée 


Pour déterminer la précision des estimations de la droite de régression, considé- 
rons l'écart entre la valeur observée et la valeur estimée de chaque observation 
de l'échantillon. Cet écart (ou résidu) s'exprime aussi de la manière suivante : 
= (GP). 
Si nous élevons au carré les deux cütés de l'égalité et faisons la somme, nous 
obtenons : 


Sn-f} 


Im m-r0f 
SIM -FY 20 - PNÉ - P) + - PP 
eV a ANRT TT 
Le terme du centre peut étre écrit comme suit : 
S-P-P) = SM -P)(a +84; - à 8%) 
bS (M - FX: - À) 
= PY (x -XŸ. 
Par la formule (15.14), on obtient : 
Fi — Ÿ = b(X; — À). 
En élevant cette équation au carré et en en prenant la somme, cela donne : 


D -Pp = B(X: - ZX 


Cm en déduit : 
LM-PA-P) = DU -P) 


Replaçant ce résultat dans l'expression précédente, nous obtenons après sim- 


plification : | / 
Lm-%}=>m-r}-5 M -r) 


qui, pour plus de commodité, peut s'écrire : 
J-PP=Sm-P+ SP). 

La différence (Y; — Fr} est l'écart de la ième observation par rapport à la 
moyenne globale et par conséquent S(Y; — Ÿ} est la somme des carrés des 
écarts entre les observations et la moyenne. On appelle S'(Ÿ; — Ÿ}? la somme 
des carrés corrigée des Ÿ ou, d'une manière plus brève, la somme des carrés 
totale SC+,+. Comme Y; — Ÿ; est l'écart de la ième observation par rapport à 
sa valeur prévue ou estimée (c'est le ième résidu) et comme Ÿ; — Ÿ est l'écart 
de la valeur prévue de la ième observation par rapport à la moyenne, on peut 
exprimer l'équation (15.14) en termes de somme de carrés : 


Analyse de régression et corrélation 347 


Somme des carrés Somme des carrés + Somme des carrés 


totale des résidus de la régression 
(SCtot (SCres) (SCreg) 
ou Variation totale — Variation + Variation 
inexpliquée expliquée 


Ces concepts et leurs relations sont représentés dans La figure 15.5. 


X 


Figure 15.5 : Variations expliquée et inexpliquée par la régression linéaire 


À partir de ces concepts, nous pouvons définir R°, qui est le coefficient 
de détermination. Il mesure la proportion de La variation dans la variable Y, 
qui s'explique par la présence de la variable X (ou par la droite de régression). 
Ainsi : 


R° = Variation expliquée / Variation totale, 


Îl est, en principe, souhaitable que la valeur de RŸ soit très grande, car pu 
la valeur de À? est grande, plus celle de la variation inexpliquée S{Y; — Yi}? est 


petite. 


Remarque : Toute somme des carrés est associée à un nombre de degrés de 
liberté, Ce nombre indique combien d'éléments indépendants (contenant les n 
nombres indépendants Ÿ,, Yo...., Y,) sont nécessaires pour calculer la somme 
des carrés. Par exemple, la somme des carrés totale nécessite (n — 1) éléments 
indépendants. La somme des carrés de la régression requiert 1 degré de liberté. 
Et par soustraction, nous trouvons donc que le nombre de degrés de liberté pour 
la variation inexpliquée est (n — 1 — 1), c'est-à-dire (n — 2). 

Nous pouvons ranger les différentes variations et les degrés de liberté associés 
dans une table d'analyse de variance : 
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Analyse de variance 


Source de Degré de Somme Movenne 

variation liberté des carrés des carrés Fe 
Régression 1 EL Tr} Sr) 
Résiduelle __n-2 E(M-) Z(M-"})/n-2 
Total n-1 XK-Y} 


La movenne des carrés (MC) est obtenue en divisant la somme des carrés 
par les degrés de liberté. 

Nous allons reprendre l'exemple 15.3 et calculer les sommes des carrés et la 
movenne des carrés pour pouvoir établir une table d'analyse de variance. 


Un -F} 


(21,05 — 41,11) + --- + (28,19 — 41,11) = 501, 30. 


S Creg 


SCres = S (K -"} 
= (16,2 — 21,05)? +... + (33,1 — 28, 19)? = 797,84. 


SCtot = (M -Ÿ} 
= (16,2 91,11) +... + (83,1 — 41,11)? = 1 299, 14. 


MCreg = Dir = Ÿ}"/1 
= 501,30. 
S$?= MCres = (M - )?/n - 2 
= 66,48. 


Nous avons donc le tableau 15,3. 


Tableau 15.3 : ANOVA pour l'exemple 15.3 
SV. dl $C MC F. 
Régression 1 501,30 501,30 7,53 
Résiduelle 12 797,85 66,48 

Total 13 1 299,14 


Pour calculer le coefficient de détermination de cet exemple, il suffit de se 
reporter au tableau d'analyse de variance puisqu'il contient tous les éléments 
requis. Comme R° mesure la proportion de la variation totale expliquée par la 
régression, on l'exprime souvent en pourcentage en le multipliant par 100. 
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L'intervalle de confiance de l'estimateur b se construit de la façon suivante : 


S 
bitiion-n + 
ER DE CES 4 U 


OÙ f{a/2n-2) est la valeur de la table de Student pour (n — 2) degrés de liberté 
(ce degré de liberté est associé À 57} et un seuil de signification a. 
Ceci correspond à la procédure habituelle d'un test d'hypothèses : 


Ho : b=0 
H, : b#O 
en calculant . 
pe b 
EU 


et en comparant la valeur absolue de # avec t{,,2 1-2, obtenu à partir d'une 
table de Student avec (n — 2) degrés de liberté et un seuil de signification «x. 


Exemple 15.5 Reprenons l'exemple du taux d'urbanisation et du taux de 
natalité, Dans la table d'analyse de variance, nous avons obtenu : 


S? = 66,487 


qui donne : 
5 = \/66,487 = 8, 154. 


La formule de l'écart-type de b étant : 
5 


VECG = X) 


S(b) = 


par substitution, 


D (x -X) 


(55,0 — 29,762)? +. + (37,1 — 29, 792}? 
= 3 150,969 


SEX — XX = ,/3 150,969 — 56, 133 


on obtient : 


8,154 
56,133 


En utilisant ce résultat dans l'expression : 


S(b) = = 0, 145. 
b + t(afan-2) S(b) 


on obtient : 


—0,399 + 2,179 - 0, 145 
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qui donne l'intervalle de confiance : 
b € [—-0, 716: —0, 082]. 


Pour tester l'hypothèse que le coefficient b de la relation entre le taux d'ur- 
banisation et le taux de natalité est zéro, nous calculons : 


fl 
es 
___|-0,399] 
0,145 
En comparant cette valeur avec la valeur correspondante de la table de Stu- 
dent, t{a/2n-21 = 2,179, nous obtenons : 


= 2,746. 


Le > {a fan-2) 


Ceci indique que l'hypothèse H5 : b = 0 doit être rejetée en faveur de l'hy- 
pothèse alternative H, : b£ 0, pour le seuil de signification a = 5%. 

On en conclut qu'il existe une relation linéaire entre le taux d'urbanisation 
et le taux de natalité. Si Ho avait été acceptée, cela aurait signifié qu'il n'y a 
pas de relation linéaire entre ces deux variables. 


Remarque: Sur la base du test de Student, nous avons rejeté l'hypothèse 
H5 : b= 0. La même conclusion aurait été obtenue si on avait utilisé l'intervalle 
de confiance. En effet, nous remarquons que la valeur zéro n'appartient pas à 
l'intervalle de confiance pour b, ce qui indique qu'au niveau de confiance 95%, 
b est différent de zéro. 


15.7 Hypothèses sur l’ordonnée à l’origine a 


De façon similaire, on peut construire un intervalle de confiance pour a et tester 
les hypothèses Hi: a = 0 et Hi: a £ 0. 
L'écart-type estimé de à, noté par S{û), est : 


:\ — ZX? 
Du > TS: 


Ainsi l'intervalle de confiance pour a est donné par : 


|__ 5 X 
ü À Éta/2,n=2) nIUX, - XP + 5. 


La valeur de t. pour le test de Student est : 


= 


ü 
Le = 


PE 
n (Xi Xe 


Analyse de régression et corrélation 353 


Exemple 15.5 (suite) La substitution des valeurs dans les expressions 
précédentes donne l'écart-type : 


= 4,845 

et l'intervalle de confiance : 
42,99 + 2,179 - 4,845 
a € [32,433; 53, 547] 


et la valeur : 


__ 42,99 
5 7 4,845 


3,873. 


Comme te > tiaan-2 = 2,178, on rejete l'hypothèse Ho : a = 0, au 
seuil de signification à = 5%. Ce même résultat s'obtient en notant que zéro 
n'appartient pas à l'intervalle de confiance. On en conclut donc que la droite 
ne passe pas par l'origine, 


15.8 Régression passant par l’origine 


Le fait d'accepter l'hypothèse nulle, H4 : a = 0, signifie que nous devons trouver 
une nouvelle droite de régression qui sera de la forme : Y; = bX;. Dans ce cas, 
il faudra calculer une nouvelle estimation de b. Le modèle sera donc modifié du 
fait de l'omission du terme a : 


Mi bAi+e,. 


En effectuant l'estimation du paramètre b selon la méthode des moindres 
carrés, nous obtenons : 


Yi — BA; 


Dd=)m-Hx) 


qui donne la dérivée partielle suivante en minimisant par rapport à b : 


ëD 
db 


LE 


D 


= 25 Xi —bXi) = 0 


Qu 


SAM —bX:) = 0 
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SX -bÿ X1=0. 
i Î 
La valeur de b qui satisfait l'équation est l'estimateur b de b : 


x 
RES 


7 


Exemple 15.6 Soit le tableau 15.4 présentant la demande de biens de pre- 
mière nécessité ainsi que le PNB (produit national brut} correspondant. Nous 
voulons estimer la demande de biens de première nécessité en fonction du PNB. 


Tableau 15.4 : PNB et demande de biens de première nécessité 


PNB Demande des biens de 
première nécessité 


oÙ ü 
52 E 
39 9 
59 10 
57 8 
58 10 
62 12 
65 9 
68 11 
69 10 
TÙ 11 
12 14 


L'équation estimée est : 


Ÿ: = —4,047 + 0,226X;. 


47,667 
La substitution des valeurs dans les expressions précédentes donne l'écart- 


type : 
45 861 
S(ä} — ——— | ,5l 
(à) V12.506,92 !'? 


= 3,31 
et l'intervalle de confiance : 


—4, [M + 2,228 : 4,91 
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Dans le modèle de régression où la droite passe par l'origine, la somme des 
carrés totale est égale à la somme des observations élevées au carré : 


2 
SCtot = D. 
Quant à La somme des carrés de la régression, elle est égale à la somme des 
Y élevés au carré : 
SCreg = Ÿ _Ÿ?. 


Nous résumons ceci dans la table d'analyse de variance : 


Tableau 15.6: Analyse de variance 


S.V. di. SC MC 
Régression 1 1188,2 1 158,2 
Résidu 11 19,8 1,8 
Total 12 1 26,0 


Nous pouvons alors déterminer R° : 


variation expliquée 


2 
Per variation totale 
1188,2 
= T 208.0 - 100 = 98.36%. 


En estimant le modèle de régression général, nous aurions trouvé la valeur 
R° = 63,90%. Nous constatons donc que le modèle sans constante est plus 
adapté que le premier. 


15.9 Intervalle de confiance pour Y 


Nous avons montré que : 
F=Y+bXx - X) 
où Ÿ et b sont les deux termes sujets à l'erreur. La valeur de Ÿ est aléatoire et 
influencée par les variations de Ÿ et b. 
Comme Ÿ et b sont des variables aléatoires indépendantes, la variance de la 
valeur estimée de Ÿ à un point déterminé X4, à savoir Ÿ. est : 


Var(Ÿs) = Var(Ÿ)+(Xx - XYVar(b) 


A APN 

n {Xi -XY 

En remplaçant o* par son estimation à partir de l'échantillon 5% et en 
prenant la racine carrée, on obtient : 
1  (X,-X} 1 


Û 
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Cette valeur est minimale quand X4, = ÀŸ et s'accroît lorsque X% s'éloigne 
de X dans l'une ou l'autre des directions. En d’autres termes, plus la distance 
entre X4 et À est grande, plus l'on doit s'attendre À commettre une erreur 
importante en estimant ŸY, de la droite de régression. 


Exemple 15.7 Revenons aux données sur le taux de natalité et le taux 
d'urbanisation du tableau 15.1 et calculons l'intervalle de confiance pour Y. 
Pour évaluer S(Y4) il faut calculer X et S(X,— X)*. La valeur de n étant égal 
à ld et 5 à /06, 48 = 8,153, nous obtenons : 

X — — | — 29,792 


FX; 55,0+...+97,1 
Ti 


et 


(55,0 — 20,702) +... + (47,1 — 29, 792)" 
— 3 150,969. 


SX - XP 


En remplaçant ces valeurs dans la formule de S(ŸL), nous obtenons : 


(Xx — 29,79) \ 1? 
3 150,969 


= 1 
Sri) = 81531 — 
(ri) = 8, (+ 


Donc si A3 = À, on a : 


: 1 1/2 
S(Ÿ:) = 8,183. (5) 


2.179. 


En revanche, si À = 43.4, on obtient : 


; 1 (33,3 — 29, 79)2\ /* 
SX4) 8,153 (+ 3 150, 969 ) 


= 2,336. 


L'intervalle de confiance de la valeur de Ÿ pour une valeur de X, particulière 
est donc: 


Ÿr À ttaram-2 SŸE) 


ŸL + 2178 S(ŸL), 


ce qui donne pour les différentes valeurs de X, le tableau 15.8 : 
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15.10 Test F pour la pente b 


À partir de la table d'analyse de variance, nous calculons le ratio F. qui repré- 
sente le ratio de deux estimations différentes de la variance du modèle linéaire 
liant Ÿ et X : 


MC 
Fee. 
Ce ratio suit une distribution F avec 1 et (n — 2) degrés de liberté, et sert 
à tester l'hypothèse Hy : b = O0. En effet, en comparant la valeur de F, avec 
la valeur de F(1 — &,1l,n — 2) trouvée dans la table, l'hypothèse Hi doit être 
rejetée si F. est supérieur ou égal à F. 


Exemple 15.5 (suite) Dans l'exemple du taux de natalité et du taux d'urba- 
nisation, la table d'analyse de variance nous donne le ratio F, suivant : 


__ 501,30 
| 66,48 


Pour n = 14 et avec un seuil de signification & = 0,05, nous trouvons dans 
la table, La valeur Fio os, 1, 129 = 4,75. Par conséquent F; >F, et nous rejetons 
l'hypothèse H9 : b= Ü. 


Remarque: Il existe un lien entre F, et £.. Si l'on se réfère 4 l'exemple 15.5 
nous avons trouvé la valeur t. = 2,746 et avons conclu un rejet de l'hypothèse 
Ho: b= 0. Nous pouvons constater que F. = t? (à des erreurs d'arrondis près). 
Par conséquent, on peut utiliser indifféremment le test ? ou Le test F, Toutefois, 
on trouve facilement le ratio F. puisque les chiffres nécessaires se trouvent déjà 
dans la table d'analyse de variance. 


Fe 


= 7,54. 


15.11 Approche matricielle de la régression 
linéaire 


Le but de cette dernière partie du chapitre est d'introduire l'algèbre matricielle 
pour l'analyse de régression, afin de considérer des modèles comprenant plusieurs 
variables explicatives, c'est-à-dire des modèles relatifs à l'analyse de régression 
multiple. En effet, Le calcul matriciel est un instrument qui permet de généraliser 
et résoudre de façon relativement simple des systèmes d'équations, à plusieurs 
variables. 

Pour se familiariser avec la notation et le calcul matriciel, nous allons tout 
d'abord appliquer cette approche à un modèle de régression simple en comparant 
les résultats obtenus par calcul matriciel à ceux obtenus précédemment. Ensuite, 
nous généraliserons à l'étude de la régression multiple. 


Exemple 16.7 (suite) Reprenons l'exemple du taux d'urbanisation et le 
taux de natalité. Le modèle de régression sous forme matricielle s'écrit : 


Y=XB+e, 
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€ = vecteur (n x 1) des erreurs : 


L'expression Ÿ = X 6 + € représente un système de 12 équations. En effet, 
nous pouvons écrire cette expression de la façon suivante : 


16, 2 1 55,0 €] 
30, 5 1 27,3 € 
16,9 1 33,3 3 
16,0 1 56, 5 Ë 4 
40, 2 1 11,5 Es 
38,4 1 14,2 6 
41,31  |113,9 pe 1e 
43,9 1 19,0 fi; € 
28,3 1 33,1 €g 
33,9 1 43,2 E10 
44, 2 1 28,5 €11 
24,6 1 6,8 É12 
28, Ù 1 37,7 E13 
33, 1 1 37,1 E]4 


Elle exprime Les 14 équations du modèle : 


16,2 = 69 + 55,08, + € 
30,5 = Fa + 27,38: + €9 


33,1 = Ho + 37, 1Ë + 14. 
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Tableau 15.10 : ANOVA pour l'exemple 15.3 
S.Y. d.L. $C MC F 
Régression 1 501,30 501,30 7,53 
Résiduelle 12 797,85 66,48 
Total 13 47,667 


Le coefficient de détermination À? se calcule aussi de facon matricielle, 
à savoir : 


SCreg _ B'X'Y'"-nŸ? 501,3 
SCtot  Y'Y-nŸ2 1299,15 


ou sous forme de pourcentage : 


R° = 0,3858 - 100 = 38, 58%. 


RÈ = = 0, 3858 


15.11.3 Variance de B 


Similairement à la méthode simple, la variance du vecteur des paramètres es- 
timés 8 peut s'obtenir à partir de la méthode matricielle : 


Var(Bo)_ Cov(êo; B;) 
Cou(ño, 81)  Var(à,) |’ 


En appliquant cette formule à l'exemple 15.7, nous obtenons : 


| 0, 35312 pe _ [ 23,47 va 


Var() = S{X'X) 7! = | 


V'ar( A) = 
ar(8) _0,00945 0, 00031 _0,62 0,02 


Si l’on calcule la racine carrée de Var(ñ,) et de Var(f.), nous trouvons à 
nouveau les égalités : 


S(à) = S(80) = 
S(b) = S(8;) = 0,14. 


15.12 Régression multiple 


Comme précédemment, nous illustrons nos propos d'un exemple, mais tout 
d'abord examinons le modèle général comprenant deux variables indépendantes, 
À Savoir : 
Vi = Do + PiÂn + Balio té, i=1,...,n. 
Sous forme matricielle, ce modèle reste inchangé par rapport au modèle de 
régression simple, sauf en ce qui concerné la dimension des matrices. En effet, 
nous avons pour n observations : 
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Y = X 5 + € 
(n x 1) (n x 3) (3 x 1) (n x 1) 
Exemple 15.8 Les données du tableau 15.11 concernent 10 entreprises de 
l'industrie chimique. Nous cherchons à étudier la relation entre la production, 


les heures de travail et le capital. 


Tableau 15.11 : Relation entre production, travail et capital 
————————— 2 


Production Travail Capital 

{100 tonnes) (heures) (machines/heures) 
0 1 100 300 
120 1 200 400 
190 1 430 420 
250 1 500 400 
300 1 520 510 
360 1 620 590 
480 1 800 600 
430 1 820 630 
440 1 800 610 
490 1 750 630 


Sous forme matricielle nous avons : 


60 1 1100 300 é 
120 1 1200 400 € 
190 1 1430 420 és 
250 1 1500 400 . 4 
300 1 1520 510 2 és 
L= aol [11600 50! * FA <= 
380 1 1 800 600 a € 
430 1 1820 630 ER 
440 1 1800 610 €g 
490 1 1750 630 EG 


Les équations qui forment le modèle sont alors les suivantes : 


60 = #o + 1 1008, + 300 + € 
120 = 65 +1 2008, + 4004, + e2 
490 — #0 + 17508, + 630%, + Ex 
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ou 


Hs: 1, =0 et & #0 


Ci 
Hs : B #0 et Bo = 0. 


L'analyse de variance peut être utilisée pout tester dans quelle mesure chaque 
variable indépendante contribue à l'explication de la variable dépendante. 

Pour cela, il existe une technique spéciale consistant à calculer séparément 
la somme des carrés issue de la régression en considérant un modèle contenant 
uniquement une partie des variables indépendantes. Ensuite, on effectue un 
test F à partir de la différence entre la somme des carrés due à la régression du 
modèle complet et la somme des carrés relative au modèle partiel. Ceci permet 
de vérifier s'il faut utiliser le modèle complet plutôt qu'un modèle plus sim- 
ple comprenant moins de variables explicatives (voir Draper and Smith (1966), 
Chapitre 4). 

Dans ce chapitre, nous n'avons étudié que la régression multiple avec deux 
variables indépendantes pour des raisons de facilité de calcul. Cependant, tout 
ce que nous avons vu ici peut facilement être généralisé dans le cadre de modèles 
généraux avec £ variables indépendantes. 


15.13 Corrélation 


Jusqu'ici, nous avons vu comment déterminer l'équation de la droite qui décrit 
le mieux, selon le critère des moindres carrés, la relation entre deux variables. 
Nous allons à présent examiner les méthodes de mesure du degré d'association 
ou de corrélation existant entre les variables, ce qui nous permettra aussi de 
juger de la qualité de l'ajustement des points par La droite. 


15.13.1 Le coefficient de corrélation 


Le coefficient de corrélation est une mesure de l'intensité de la relation et 
plus précisément de l'intensité de la relation linéaire entre deux variables. 

Les traités de statistique proposent de nombreux coefficients de corrélation. 
Le choix de celui à emplover pour les données particulières repose sur différents 
facteurs, comme : 


1. le genre d'échelle de mesure utilisé pour exprimer la variable : 
2. la nature de la distribution sous-jacente (continue ou discrète) ; 
3. les caractéristiques de la distribution des variables (linéaire ou non-linéaire)}. 


La corrélation se définit comme une relation linéaire entre deux variables et 
le coeflicient de corrélation comme une mesure qui exprime l'intensité de cette 
relation. 
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Tableau 15.13 : Calcul de corrélation entre Les deux variables X et Y 


Observation À Y z y TU ZT tj 
Î 174 64 -2  -1 2 E | 1 
2 1735 59 —1  —6 6 1 36 
3 180 64 4 —1 É | 16 1 
4 168 62 —8 —-3 4 64 9 
3 175 51 —1 —13 13 1 169 
6 170 GO 6  —5 30 36 25 
T 170 GS —6 3 —18 36 ÿ 
8 175 63 2 —21 4 d 4 
9 187 92 11 27 279 121 129 

10 178 TD n 5 10 À 25 


Total 1759 645 350 287 1 ÜO8 


À = 175,5 = 176 et Ÿ = 65,3 = 65. 


Notons que les r et les y ont été calculés sur la base d’une moyenne arrondie 
pour simplifier les calculs. 
Appliquons la formule : 


= ee = me = ———— = 0), 66. 


15.14 Tests d’hypothèses 


Quand l'échantillon est extrait d'une population normale conjointe, il est naturel 
de vouloir tester des hypothèses concernant la valeur de p. 


Pour tester j : p = À contre l'hypothèse alternative #3 : p # 0, nous 
calculons : 
pt nn (15.16) 
5, Ÿ 1 — r2 
et on rejette H5 site 2 t{opon-2) OU 8i be € —f{apan-2). Cependant, un calcul 
permet d'obtenir : 


et, par conséquent, le test précédemment énoncé est équivalent au test Ho : 5 = 
0 contre A1 : 5 # 0 déjà mentionné section 15.7. Rappelons que dans ce cas le 
ratio F est utilisé pour effectuer le test, 
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Exemple 15.10 Etant donné les observations suivantes : 


X |4 7 5 à & 
F15 3 5 J 
il est aisé de vérifier que r = —0,97. En utilisant l'équation (15.16), nous 
obtenons : 
te = (—0,97)V3/1/0,0591 = 6, 91. 
Puisque t. = —6,91 < —ti00s, 5 = —5,841, l'hypothèse Ho : p = OÙ est 


rejetée en faveur de H, : p # 0. Un niveau de sigmification de l'% a été utilisé 
ici, Le lecteur peut aussi considérer les hypothèses Ho : 8 = O et Hi : 5 # Det 
comparer les résultats du test statistique avec ceux obtenus précédemment. 


15.15 Coefficient de rang (Spearman) 


Lorsque l'échelle de la première variable constitue une mesure ordinale et que 
celle de la deuxième est soit une échelle ordinale, soit une échelle de rapport 
ou d'intervalle, on ne peut pas employer le coefficient r définit précédemment. 
Le coefficient de Spearman, symbolisé par r,, aussi connu sous le terme de 
coefficient de corrélation de rang, est alors approprié. 

Ce coefficient de corrélation est basé sur la différence des rangs obtenus par 
les individus sur les deux variables. La formule est la suivante : 


Lil 
6ÿ D? 
= 


T° nn) 
où © représente, pour chaque observation, les différences de rang obtenues sur 
les deux variables. 


Exemple 15.11 Un “nez” donne une note de qualité à 10 parfums. Les 
scores notés de 1 à 10 (10 étant la meilleure note) et les prix des parfums 
correspondants sont présentés dans le tableau 15.14. 

Un statisticien voudrait savoir si les prix des parfums dépendent de leur 
qualité, Il décide donc de calculer un coefficient de corrélation de rang de 
Spearman. 

La qualité du parfum étant notée de 1 à 10, les scores et les rangs (ÆR;) de 
la variable "qualité" sont donc les mêmes. Les rangs (5;) de la variable "prix" 
s'obtiennent en notant de 1 à 10 les prix des parfums (10 étant le prix le plus 
élevé}. On obtient le tableau 15,15. 
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15.18 Exercices 


1. Le tableau suivant présente la mortalité infantile et la production nationale 
brute par habitant pour 14 pays européens en 1965 : 


Mortalité infantile PNB par habitant 


(Y) (X) 
Allemagne R.F. 24 190 
Autriche 28 128 
Belgique 24 180 
Danemark 19 212 
Espagne 37 36 
France 22 192 
Grèce 34 68 
Irlande 25 98 
Italie 36 110 
Luxembourg 24 197 
Pays-Bas 14 155 
Portugal 65 40 
Royaume-Uni 20 181 
Suisse 18 233 


{a} Représenter les données de ce tableau sous forme d'un nuage de points 
dans un diagramme de dispersion où l'axe horizontal représente le 
PNB par habitant et l'axe vertical représente la mortalité infantile. 


(b} Dessiner à main levée sans aucun calcul, une droite qui sait aussi 
proche que possible des différents points du nuage. Déterminer la 
pente b et l'ordonnée à l'origine a de cette droite. 


(c) D'une façon plus objective, on considère le modèle linéaire : 


Y=atbh.X+e, 


pour décrire ce nuage de points. Estimer les valeurs de à et & par la 
méthode des moindres carrés. 

(d) Dessiner la droite Ÿ = à+b-X sur le même graphique et la comparer 
avec la droite dessinée dans la partie (b}. 


3. Dans l'exercice précédent, remplacer Les valeurs de X par log(X} et refaire 
les parties (a} et (c} de l'exercice. Vérifier que la droite Ÿ = & + b log(X) 
semble plus proche du nuage de points que la droite Ÿ = àä+b:X obtenue 
précédemment. 
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3. Un échantillon de 12 ménages locataires choisis aléatoirement dans une 
commune de Neuchâtel ont été questionnés sur leur lover et leur revenu. 
Les résultats suivants ont été obtenus : 


D ————_ 
Loyer mensuel Revenu mensuel 


(Fr.) (Fr.) 
1 200 4 750 

#90) 3 100 
1 900 à O4) 
1 Ü80 4 90 

970 2 800 
2 500 6 420 
1 480 6 590 
1 550 5 120 
1 080 2 800 

920 2 620 
1 370 3 130 
1 540 3 910 


(a) I s’agit d'établir une relation linéaire entre le loyer et le revenu pour 
les ménages de cette commune. À partir des résultats de l'échantillon, 
déterminer par la méthode des moindres carrés, les valeurs de à et b 
de la relation : 

Loyer = à + b- Revenu. 


(b} Calculer la variance de l'estimateur b. 


(c) Calculer l'intervalle de confiance du paramètre b pour un coefficient 
de confiance de 95%. 


4. Un métallurgiste travaillant sur une nouvelle forme d'alliage a trouvé les 
résultats suivants : 


UUUOUpUpnppnpnnp———— —….——…—…—…—…—…—…——_——…——— 
Température Quantité de cupro-nickel 


(C®) (mg) 
600 2 
650 2 
700 3 
750 5 


{a} Déterminer une relation simple entre la quantité de cupro-nickel (Y) 
et la température (X), supposant que l'écart-type de la variable 
“quantité de cupro-nickel” est æ = 0, 05. 
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(b) Le résultat (a) serait-il différent si l'écart-type était & = 0,005 ? 
Expliquer votre raisonnement. 


5. Un Aux de chaleur se propage depuis l'intérieur de la Terre jusqu'à sa 
surface, La température est de 375°C dans l'écorce superficielle (à 20 
km de profondeur) puis elle augmente progressivement dans le manteau 
supérieur pour atteindre 800°C à 50 km et 1 800°C à 1 000 km. Les 
estimations de température pour le manteau inférieur sont de 2 250°C à 
2 000 km et de 2 500°C à 2 900 km. Au centre de la Terre (6 370 km}, 
elle serait de 3 000°C. 


(a} Dessiner sur un graphe le nuage des points définissant la relation 
existant entre la température (axe vertical) et la profondeur {axe 
horizontal}. 


(b) Par la méthode des moindres carrés, trouver la droite qui est la plus 
proche en moyenne des points du graphe. 


{c) Tester l'hypothèse que l'ordonnée à l'origine de la droite trouvée dans 
(b} est zéro. Utiliser un seuil de signification de 5%. 


(d) Déterminer la pente de la droite passant par l'origine à partir des 
mêmes données, 


{e) Dessiner cette droite sur le graphe et la comparer avec la droite 
obtenue dans (b). 


6. L'analyse de régression peut servir aussi pour approximer des fonctions 
complexes. Dans le tableau ci-dessous, les valeurs, à trois décimales près, 
de La fonction y = log{l + x} sont présentées pour 7 valeurs de x : 


T | 0,25 —-0,15 —0,10 0 0,10 0,15 0,25 


y | —0,288 -0,163 0,105 O 0,095 (0,140 0,233 


(a) Déterminer l'approximation linéaire Y = a + b. X. 
(b} Utiliser (a) pour obtenir la valeur de y pour x = —0,12 et x = 0,12. 


{c) Comparer les résultats obtenus dans (b} avec les valeurs exactes de 
y, trouvées à partir des tables de logarithmes. 


7. Pour examiner la relation entre criminalité et pauvreté aux États-Unis, 
les statistiques sur le nombre de meurtres par 100 000 habitants et sur la 
fraction de la population au-dessous du seuil de pauvreté ont été compilées 
pour les 50 états des États-Unis. Les résultats sont présentés dans le 
tableau suivant : 
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Tan de Prénom Tuuï dé Traction 

meurtre de la pop mauve de Le pop. 

ae Dot anss eeqil Go due sous cembl 

habitant pauvre babitsnts pauvreté 

Mate rom 11.7 COREEUE Li HE ou ri À ds ds 3,# ü,1280 
Alsske CA CHELLES Mebenabke 2,7 d,1138 
hrisons CA: 1216 SULI TL 1,8 D,676E 
hrkamass CAC d,:396 Kew Hampsbiré z,0 D,G30% 
Cafés ie CE | 0454 Mes lerser 1,9 1,08 1% 
Ca bunr mlu 4.1 METE Ken Megion 4,4 d,i6T4 
Cannes ben FA CALE [3 Kew York 4,4 ALLÉE 
Eelaware Th d,1TIE Caroliss du Ford 0,4 à, E 50 
Fisride LB. B,.ivar Carôolins du Sad LL, G,L6TI 
Ceurate 1.1 COMETEN Lisbkois du Ferd 0,3 Li, L'OE4 
Hasat à. CORAIL TE Dékots du Sud a,7 f,1165 
Idske 4.1 D,TEUS bb CP: ü, LOS 4 
Elineis T,1 CRILEL Gklabsms 4,7 ü,1T31 
ELEC 1.7 D,.1113 Dress a, 1 nou 35 
Los à 1.3 dire Fenusriventre 4,8 ü,L 102 
Kausss 4 0 D,HuiT Bodo als 1,2 ALLER 
Kentucky 1.7 d,1 +01 Tonuessun 4,% 0,16 0% 
CCTAIEECT TL p.14 v.i291 Tésas Bu 0,148 
CECI o.4 D,1167 LViash #17 U,E8 44 
Bla Lara CT n,11i% Vermemt 3,1 D, 1160 
Alasssrhesmeite 4.8 0,436 Virginis 7, 0,155 
Be he à 4,1 qua Washington 4,1 COTTe 
Mi née 1.6 CALE Wéesr Virgins 4,6 0,LTE# 
Mississippi a.T Di W iscouwsin 1,# ü,DG5E 
Milaecuré 7. d,ia7} VW poussin E 4,8 0,104 


(a) Évaluer la régression linéaire Ÿ = a + bX entre la criminalité (Y°) et 
la pauvreté (XX). 


(b} Déterminer si le paramètre estimé b est significativement différent de 
zéro, pour un seuil de signification de 5%. 


(c} Établir le tableau d'analyse de variance correspondant à la régression 
FF =a+bx. 


(d}) Calculer le coefficient de détermination R?. 


8. Les résultats scolaires de deux années consécutives d'un élève d'école pri- 
maire sont présentés ci-dessous : 


Score total des 
trois trimestres 


Matière 4" primaire 9° primaire 
Élocution/Lecture 18 16 
Composition 18 17 
Vocabulaire 17 16 
Grammaire /Conjugaison 15 16 
Orthographe 15 17 
Écriture et tenue des cahiers 16 17 
Mathématiques 17 16 
Géographie 16 16 


Dessin 15 17 
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{a) Représenter ces scores sur un diagramme de dispersion. 
{b} Calculer le coefficient de corrélation des scores de 4° primaire et de 


d Primaire. 


9. Pour les données groupées ci-dessous, calculer le coefficient de corrélation 
entre le revenu d'une famille et le nombre d'enfants par famille : 


Revenu Nombre de Nombre moyen d'enfants 
mensuel familles par famille 
moins de 1 000 46 0,490 
1 000 - 1 499 33 0,455 
1 500 - 1 999 25 0,662 
2 000 - 2 499 28 0,838 
2 500 - 2 999 29 0,883 
3 000 - 3 499 26 1,027 
3 500 - 3 999 24 1,158 
4 000 - 4 999 51 1,172 
5 000 - 5 999 55 1,347 
6 000 - 6 999 52 1,501 
7 000 - 7 999 47 1,549 
8 000 - 8 999 38 1,461 
9 000 - 9 999 31 1,537 


10. Les programmes du soir de sept chaînes de télévision ont été évalués par un 
couple (mari et femme). Le rang 1 a été attribué au meilleur programme, 
le rang 2 au second etc. : 


Mari Femme 
SRomande 5 
TF1 à 
A2 d 
FR3 1 
La Cinq 2 
MG ü 
Canal + 7 


mi CS des 9 Cr de © 


Calculer le coefficient de Spearman afin d'établir le degré de corrélation 
entre les évaluations du couple. 


Hidden page 


Hidden page 


380 Chapitre 16 


16.1 Données catégoriques 


La nature de telles variables est fondamentalement différente des variables trai- 
tées dans les chapitres précédents de ce livre, comme “revenu”, “durée”, “dis 
tance”, dont les valeurs sont des quantités: “4 500 francs”, “126 heures”, “63 
kilomètres”, etc. 

Suivant les notions introduites dans le chapitre 2 de ce livre, il est utile de 
distinguer plusieurs types de variables catégoriques : 


« variables binaires (ex : variables dont les catégories sont “oui” et “non") : 


« variables multi-catégorielles non-ordonnées (ex : profession dont les caté- 
gories peuvent être “boucher”, “mécanicien”, “PD.G.", etc) ; 


e variables multi-catégorielles ordonnées (ex : niveau d'éducation dont les 
CORTE 


catégories sont à Neuchâtel “primaire”, “secondaire”, “gymnase” et “umi- 
versitaire") ; 


e variables à nombre entier (ex : taille de la famille dont les catégories sont 
“1 personne”, “2 personnes”, “3 personnes” etc). 


Il y à aussi des variables qui sont essentiellement continues, mais qui peuvent 
se présenter sous forme de variables catégoriques, Un exemple est l'“âge”. Il 
s'agit d'une variable continue puisqu'elle peut être mesurée en terme d'années, 
de mois, de jours et, si on le désire, d’une façon encore plus fine en heures, 
minutes voire secondes. Cependant, pour certains problèmes, les données rela- 
tives à l'âge peuvent être groupées en classe d'âge, par exemple, Ü-14 ans, 15-34 
ans, 35-64 ans, 65 ans et plus. On procède ainsi à une transformation de la vari- 
able continue “âge” en une variable catégorique “groupe d'âge". L'analyse des 
données de ce genre devrait donc être effectuée à l'aide de méthodes appropriées 
aux données catégoriques. 


16.2 Degré d’adéquation d’une distribution 


Un problème qui se présente fréquemment en statistique consiste à tester si une 
distribution théorique particulière reproduit bien un ensemble de données tirées 
d'un échantillonnage aléatoire simple. La mesure d'adéquation de la distribution 
est basée sur la comparaison de la distribution des fréquences observées et de la 
distribution théorique présumée. 


16.2.1 Données binaires 


Soit À une variable admettant deux catégories : “1” et “0”. Ces dernières 
peuvent être, par exemple, les réponses “positive” ou “négative” à une question 
posée lors d'une enquête, les résultats possibles suite à un traitement médical : 
“échec” ou “succès”, ou bien d’autres situations pour lesquelles on doit faire 
face aux situations alternatives. 


Analyse de données catégoriques 331 


La probabilité de l'événement À = 1 est généralement représentée par p = 
F(X = 1). Par complémentarité, g = 1-p = P(X = 0} représente la probabilité 
de l'événement X — 0. La distribution de la variable À est donc spécifiée quand 
la valeur de la probabilité p est connue, par exemple, p = po. 

Ayant observé La variable À sur un échantillon de taille #, la mesure d'adéqua- 
tion de la distribution consiste à tester l'hypothèse nulle : 5 : p = pp. Nous 
avons vu au chapitre 12 que le test de cette hypothèse se base sur le rapport 
critique suivant : ; 

RC. = = 


Pogo 
ni 


où P représente la proportion observée des “1” dans l'échantillon, qui se calcule 
P = Xy/n où X1 est la fréquence observée, Si ce rapport dépasse en valeur 
absolue un seuil prédéterminé, l'hypothèse nulle est rejetée et on concluera que 
la distribution présumée diffère d'une façon sigmificative de la distribution ob- 
servée. 


Exemple 16.1 Le tableau 16.1 présente la performance d'un météorologue 
durant 50 jours consécutifs. Une valeur 1 indique que la prévision était “juste” 
et la valeur 0 qu'elle était “fausse”. 


Tableau 16.1 : Prévisions d’un météorologue 
durant 50 jours consécutifs 


1 0 1 1 0 1 0 1 1 0 
0 1 0 1 1 0 © 1 1 
1 1 0 1 0 1 1 1 1 O0 
1 0 1 1 0 0 1 1 1 1 
0 1 1 1 0 1 1 0 1 1 


On évalue la performance du météorologue en testant si ses prévisions sont 
différentes de ce qu'on aurait pu obtenir par pur hasard. Ceci revient 4 tester 
l'hypothèse que la fraction des prévisions “justes” est égale à p = 1/2. 

Le nombre des prévisions correctes étant X, = 33, on obtient un score de 
& = 66%, qui donne le rapport : 


ro =1P=pl - 1066-05 
Pogo 0,5-0,5 
n 50 
= 2,26. 


En comparant cette valeur avec celle de la table de la distribution normale 
correspondant au seuil de signification de 5% (2,72 = 1,96), on rejette l'hy- 
pothèse nulle et on en déduit que la performance du météorologue est supérieure 
à celle obtenue par pur hasard. 
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et Xo = 17 prévisions “fausses”. On évalue donc le test y? : 


> _ (83-50-1/2} , (17-50-1/2)° 
Xe "50-12 50 - 1/2 
= 5,12, 


On compare cette valeur avec celle de la table x? correspondant au seuil de 
signification de 5% et à un degré de liberté soit Xo0s 11 = 3,84. On constate 
l'inégalité suivante : 

x£ = 6,12 > Moos. 1 = 384 


qui nous amène À rejeter l'hypothèse nulle g = go. La valeur calculée de x? = 
5, 12 est égale à la valeur du rapport critique (2,26) élevée au carré et le x? de la 
table 3,84 correspond à la valeur de z (1,96) élevée au carré. Le test du chi-carré 
avec un degré de liberté est donc analogue au test normal : 


Fi __ À 
X {1 degré de liberté) — _ 


Cette équivalence ne se généralise pas pour des degrés de liberté supérieure 
à 1. 


16.2.2 Données multi-catégorielles 


Dans le test 37, on note que, d'une façon générale, le premier terme X1 ou X5 
de chacun des éléments de la somme correspond à la fréquence observée et le 
second terme np où ng0 à la fréquence théorique. On peut donc exprimer 
le test x? sous une forme générale : 


er 5 (fréquence observée - fréquence théorique)” 
° fréquence théorique 


Cette formulation indique comment utiliser le test quand la variable à étudier 
est définie par plus de deux catégories, par exemple, la variable “qualification 
professionnelle" définie par les trois catégories “qualifié”, “semi-qualifié”, “non- 
qualifié” ou la variable “jour de la semaine” définie par les catégories “lundi”, 
“mardi”, “mercredi”, “jeudi”, “vendredi”, “samedi” et “dimanche”. 

Considérons une expérience statistique dont le résultat de chaque essai pour- 
rait être une des & catégories possibles €1,€2,...,6€4 avec probabilité 31,p2,...,px 
respectivement. On à ÿh + pe +---+px = L 

Le degré d'adéquation de la distribution théorique comparé 4 celui de la 
distribution observée se mesure par la quantité x* : 


& 2 
à _ (A: — np} 


où zx; dénote la fréquence observée de la catégorie €;, pour à = 1,...,k, 
La quantité y? suit une distribution x avec & — 1 degrés de liberté. 
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5982? + 636 + + 530 
4 231(1/7) 
20, 76. 


- 4 231 


Il 


La comparaison de la valeur calculée avec celle de la table x? correspondant 
au seuil de signification 8%, et à un degré de liberté 6 = 7 — 1, donne : 


x? LL 20, T6 æ X 10.06, 6} == 12, GA. 


Ceci indique que les fréquences observées sont significativement différentes 
de l'hypothèse nulle qui présume que les naissances journalières sont uniformes 
pour chaque jour de la semaine, 

En effet, il semble que le nombre des naissances le dimanche est nettement 
plus bas que les autres jours de la semaine, en particulier les mardi, mercredi et 
jeudi. 

Il est important de noter que le test x* est sensible au groupement des 
catégories de la variable à étudier. En se référant à l'exemple, le groupement 
des journées de la semaine en “jours ouvrables" et “week-end” aboutirait à des 
résultats différents pour la valeur du test x*, (x° = 8,03 avec 1 = 2 — 1 degré de 
liberté) mais identique quant à la conclusion. On trouve en effet une différence 
significative entre les naissances qui se produisent le week-end et celles des jours 
ouvrables. Mais d'une façon plus générale, il se pourrait que la conclusion du test 
x° après groupement soit contraire à celle basée sur le test x° sans groupement, 


16.23 Variables discrètes à nombre entier 


Le principe du test y? s'applique aussi aux variables discrètes à nombre entier. 
Prenons comme exemple une étude relative à l'assiduité de lecture d'un hebdo- 
madaire. Les résultats de cette étude montrent que pour un mois donné, sur les 
5 201 adultes enquêtés, 2 632 personnes ont déclaré n'avoir pas lu ou parcouru 
le journal durant la période considérée ; 2 569 personnes ont déclaré avoir lu ou 
parcouru au moins 1 numéro ; 612 au moins deux numéros ; 94 au moins trois 
numéros et 7 personnes ont indiqué avoir tout lu ou parcouru tout au long du 
mols. 

On souhaite examiner si la distribution de la variable “nombre de numé-ros 
lus ou parcourus pendant le mois” suit une distribution binômiale avec pour 
paramètres n et p, où n = 4 et p est la probabilité qu'une personne ait lu ou 
parcouru un numéro précis de l'hebdomadaire. 

La variable X ="nombre de numéros lus où parcourus pendant le mois" est 
une variable discrète (ou catégorique) dont les valeurs possibles sont les nombres 
entiers À, 1, 2, 4 et 4. La variable a donc cinq catégories Libellées par “0°, “1”, 
“2, “9° et “4”. La distribution des fréquences observées est présentée dans le 
tableau suivant : 


X Q L 2 3 4 | Total 


Fréquence | 2632 1957 612 87 7 | 5201 
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L'hypothèse à tester est que la variable À suit une distribution binômiale 
avec paramètres n = 4 et p: 
Ho: X - B{4,p). 


Les probabilités théoriques de chaque catégorie de la variable X° peuvent 
donc être exprimées par la formule : 


ne Pa = he (%) Het k=0,1,2,3,4=n 


où g = 1 -p. La valeur de p étant inconnue, on trouve une estimation à partir 
des fréquences observées : 
. _D-2632+1-1957+2-612+3-87+4-7 3 470 
ci 4-5 201 "4-5 201 
À partir de cette estimation, on obtient la valeur théorique des probabilités 
de chaque catégorie de la variable X : 


= 0,6672. 


Po = PIX=0) = gt = (0,4820 
pp = PIX=1) = 4pgéÿ —= 0,385 
ps = PIX =92) = 6pg? = 0,1159 
ps = PIX=3) = Apq = 0,0155 
pa = PX=4) = pt =  0,0008 


En multipliant la probabilité théorique par la taille de l'échantillon (5 201), 
on obtient les fréquences théoriques. Les écarts des fréquences théoriques par 
rapport aux fréquences observées sont indiqués dans le tableau 16.3. 


Tableau 16.3 : Mesure de justesse de la distribution binômiale 
à la distribution de la lecture de l'hebdomadaire 


X Fréquence Fréquence 
observée théorique 


0; E, (O;-E;)/E,; 
Q 2 632 2 507 6,23 
1 1 957 2 007 1.25 
2 612 603 0,13 
3 87 80 0,61 
4 7 4 2,25 
5 201 5201 x? 10,48 


Le test x? donne la valeur observée x? = 10,48 qui doit être comparée avec 
la valeur de la table x* correspondant au degré de liberté égal à 3 et au seuil de 
signification & = 0,05. On obtient : 


x = 10, 4$ > X 06, q) = 7,81. 
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du pontificat des papes (dont les valeurs sont groupées en cinq tranches dans le 
tableau 16.4) est conforme à la distribution exponentielle. 


Tableau 16.4 : Pontificat par tranche de temps 


Pontificat Nombre de papes 
Moins d’une année 46 
l'an - 5 ans 76 
5 ans - 1{ ans 67 
10 ans - 2Ù ans 63 
20 ans et plus 1i 
Total 263 


Pour appliquer la méthode +, nous devons comparer le nombre de papes 
dans chacune des tranches d'année de pontificat avec La fréquence théorique 
sous l'hypothèse que la distribution est exponentielle. Ceci demande d'évaluer 
l'expression : 


Fa}; — Fa); = exp (-<) _. (+) 


où 1 et a; représentent respectivement les bornes inférieure et supérieure de 
la i-ème tranche du pontificat avec, ? = 1,2,3, 4 et 5 et À la durée moyenne de 
règne. C'est ainsi que l'on obtient l'estimation suivante : 


À = 7,0366 


ce qui indique qu'en moyenne les papes ont exercé leur pontificat un peu plus 
de sept années. 
On obtient la répartition théorique de la durée de pontificat en calculant : 


E; = 263 ep (5%) _— Exp (- ae )| 


pour les différentes valeurs de à _; et à, : ag = 0 ; ay = 1 ; @5 = 5 ; as = 10 ; 
ä4 = 20 ; as = co. Les résultats sont donnés dans le tableau 16.5. 


Tableau 16,5 : Fréquences observées et fréquences théoriques 
Nombre de papes 
Pontificat Fréquence observée Fréquence théorique 


CG E;; 

0 - lan 46 35 
1- 5 ans 16 99 

5 - 10 ans 67 66 
10 - 20 ans 63 48 
20 ans et plus 11 15 


Total 263 263 
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En utilisant les valeurs des fréquences observées et théoriques, on calcule le 
test v*° : 


5 
Oi - E)? 
Xe >. E, | 


(46-35)? , (76-99), , (11-15) 
35 99 15 
= ]14,7Ù 


Cette valeur est ensuite comparée avec celle correspondante de la table y* 
pour un seuil de signification de 5% et un degré de liberté de 4 = 5 — 1 : 


x 1,70 > Xfons, og = 940. 


Ce résultat signifie que l'hypothèse nulle est rejetée et que La distribution du 
pontificat des papes est significativement différente de la distribution exponen- 
tielle, 

On constate que, par rapport à la distribution exponentielle, il y a un plus 
grand nombre de papes dont la durée de pontificat a été écourtée (moins d’une 
année), et, au contraire, beaucoup moins dont le pontificat a été plus long mais 
quand même relativement court (1 à 5 ans). On enregistre, cependant, une 
concordance des valeurs théoriques et des valeurs observées pour les pontificats 
s'étendant de 5 4 10 ans et de 10 à 20 ans. 

Le test x* appliqué aux données groupées d'une variable continue est sensible 
au nombre de groupes choisis et à la manière de former les groupes. Par exemple, 
si on avait groupé la liste des papes selon les cinq tranches suivantes de durée 
de pontificat (0 - 1 an ; 1 - 4 ans : 4 - 8 ans ; 8 - 16 ans ; 16 ans et plus), le 
résultat obtenu serait : 

x = 24,4. 

Si on avait augmenté le nombre de tranches, la valeur du x? serait encore 
plus élevée. 

Il est donc important de bien choisir le nombre et la configuration des 
tranches, Une règle souvent utilisée est de choisir les tranches de telle façon que 
la probabilité soit constante pour toutes les tranches, en supposant que la dis- 
tribution présumée est correcte. Le choix du nombre de groupes équi-probables 
est ensuite donné approximativement par l'expression : 


M = 2n°"° 


où # est Le nombre d'observations à grouper et M le nombre de groupes, Donc, 
dans l'exemple des papes, n = 263 et on obtient le nombre optimal de tranches 
M = 2(263}°/5 2 18. 


16.3 Tableaux de contingence 


Quand les éléments d'une population ou d'un échantillon sont caractérisés par 
plusieurs attributs (par exemple, canton de naissance et canton de résidence 
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de La population suisse), l'information peut être représentée sous la forme d'un 
tableau croisé qui donne la distribution de la population selon les différents 
attributs. Un tel tableau s'appelle “tableau de contingence”. Suivant la nature 
et la forme des attributs, les tableaux de contingence peuvent prendre différentes 
formes. Quelques exemples, parmi Les plus courants, sont présentés ci-dessous. 

L'analyse des tableaux de contingence consiste à découvrir et à étudier les 
relations entre les attributs, si elles existent. Deux types de question sont sou- 
vent posés : (a) Les sous-populations formées par un des attributs définissant la 
population ou l'échantillon sont-elles homogènes ? et (b}) Les données du tableau 
ont-elles été obtenues par pur hasard, ou v a-t-il une certaine dépendance entre 
les attributs ? 

La réponse de la première question (a) est fournie par le test d'homogénét- 
té. Nous l'examinerons dans la section suivante (16.3). La deuxième question, 
quant à elle, nécessite un test d'indépendance qui sera abordé dans la section 
finale (16.4) 


16.3.1 Tableaux 2%*x2 


Le tableau de contingence le plus simple correspond au croisement d'une popula- 
tion où d'un échantillon défini par deux attributs ayant chacun deux catégories. 
Un tel tableau est appelé “tableau 2 x 2" et indique que le premier attribut aussi 
bien que le second comptent deux catégories. 


Exemple 16.4 Une étude médicale portant sur 47 personnes décédées dans 
un hôpital universitaire a indiqué que la cause de décès, pour 8 personnes a été 
un cancer pulmonaire ; les 39 autres sont mortes pour d'autres raisons médicales. 
Parmi les 47 personnes, 19 étaient des fumeurs réguliers et 28 des non-fumeurs ou 
fumeurs occasionnels. Le croisement des deux attributs “fumeur /non-fumeur" 
et causes de décès “cancer pulmonaire /autres maladies" a donné le tableau 16.6. 
Ce tableau est un tableau de contingence (2 x 2) comprenant deux attributs 
ayant chacun deux catégories différentes. 


Tableau 16.6 : Tableau 2 + 2 


Fumeur Non- 


fumeur 


Cancer pulmonaire 
Autre maladie 


Comme l'indique l'exemple suivant, les deux attributs d'un tableau de con- 
tingence (2 x 2) peuvent posséder les mêmes catégories. 


Exemple 16.5 En Suisse, sur 13 initiatives populaires et projets de loi, choi- 
sis plus où moins au hasard (5 relevant de la politique extérieure et 8 relatifs à 
des préoccupations nationales), trois eurent un résultat différent des recomman- 
dations du Conseil Fédéral (Art349 : Loi fédérale sur l'assurance-maladie du 20 
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nombre d'enseignants et des autres salariés des services publics d'une agglomé- 
ration urbaine suivant le niveau d'éducation. 


Tableau 16.9 : Tableau 2 * 2 


Niveau d'éducation 
Secondaire Maturité 
Q 741 
1 485 2 397 


Enseignant 
Autre 


Le zéro de la case correspondant à “études secondaires” et “enseignant” 
est un zéro structurel, car dans la ville en question, aucune personne ne peut 
enseigner dans un établissement scolaire sans posséder une maturité ou l'équi- 
valence, 


16.33 Tableau 1xJ 


D'une façon générale, si deux éléments d’une population ou d'un échantillon 
sont caractérisés par deux attributs ayant respectivement [| et J catégories, le 
tableau de contingence résultant est dénommé IxJ}. 


Exemple 16.8 Le tableau 16.10 représente un tableau de contingence de 
dimension 7 x 5. Il s'agit de la ventilation de la population suisse suivant la 
langue maternelle et la région linguistique de résidence en 1980, pour mille 
habitants. Sept régions linguistiques différentes et cinq catégories de langues 
sont distinguées. 


Tableau 16.10 : Tableau 7 * 5 


Région Langue maternelle 

linguistique Allemand Français Îtalien Homanche Autre 
Cantons alémaniques 960 14 13 4 I 
Cantons romanes 100 GG 17 1 1ë 
Tessin 127 22 843 3 ni 
Grisons G48 ü 54 247 
Berne OU) 85 7 | 7 
Fribronrg +41 549 br 1 Ë | 
Valais HE tdi) 8 1 4 


Source L Office fédéral le lai slabislique, rnsenment de lé population 
de 1980, Annuaire statistique de la Suisse 1990, p.#11 


Les éléments d'un tableau de contingence LxJ sont souvent symbolisés par : 


qui représente la fréquence correspondant à la catégorie i du premier attribut 
et à la catégorie j du deuxième attribut. Donc l'élément ns = 85, relatif à 
l'exemple numérique précédent correspond à la population de Berne parlant 


français. 
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La somme des éléments de la i-ëème ligne du tableau de contingence est 
représentée par : 
FH 


où 


“1 
hi = fi] +ma tenir = Ÿ ni. 
jæl 


De même, la somme des éléments de la j-ème colonne est représentée par : 
où 
; 
Fi = M + Maj TM = S_ ny. 
i=] 
Le nombre total des éléments est représenté par : 
FT OU F4 


I J 


il j=l 


On vérifie que : 
I 
Nt+ — ÿ Fi+ 
=] 
ainsi que : 
J 
M4 + à ny 
j=1 
Les valeurs n;,,i=1,...,/etn,;, ÿ = 1,...,J représentent les distribu- 


tions marginales du tableau de contingence. Chacune représente la distribution 
de la population ou de l'échantillon suivant un des deux attributs sans tenir 
compte de l’autre. Dans l'exemple numérique précédent, n31, n4g ,..., ns 
donnent la répartition de la population suisse suivant la langue maternelle in- 
dépendamment de la région linguistique de résidence. 


16.3.4 Tableaux IXI 


Quand les deux attributs sont de méme nature avec un nombre identique de 


catégories soit 1=J, le tableau de contingence est un tableau carré de dimension 
IxL 


Exemple 16.9 Le tableau 16.11 exprime la mobilité professionnelle entre 
deux générations. 
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En suivant la méthodologie décrite dans le chapitre 12, le test se base sur la 
différence de proportions estimées : 


= = 9 2 
SR 018 
F5 125 50 


L'espérance mathématique de cette différence de proportions est égale à : 
Pa — FI 
alors que la variance de la différence est : 


Pal — po) " P1(1 —-m) 
fi3 ri 


où A1 = 90 et n3 = 50 sont la taille d'échantillon de chaque groupe. Si l'hy- 


pothèse nulle est correcte soit m1 = 2, la proportion commune de rétablissement 
est estimée par : 


=  2+9 
P= ——— 
50 + 50 


Sous cette hypothèse, la variance est donc estimée par : 


= () 11. 


P(1 — P) (2 + =) = 0,11(1— 0,11) (35+ 5) = 0,003916 


et le test d'égalité de proportions est basé sur le rapport critique : 


FC = Penh 
Pa-P) (4+4) 
__. 0.14 
 /0,003016 


2, 2372. 


On suppose que la distribution normale est approximativement valable et 
on note que le rapport critique est supérieur à la valeur correspondante (2, jà = 
1,96) de la table normale pour un seuil de signification & = 5%. Nous concluons 
que le résultat est significatif et que le traitement en question est efficace pour 
guérir cette maladie. 


16.4.2 Test d'homogénéité du x° 


Une autre méthode pour examiner l'efficacité du traitement est d'effectuer un 
test d'homogénéité, c'est-à-dire de vérifier si le taux de rétablissement n'est pas 
significativement différent entre les malades traités par le placebo et les malades 
traités par le traitement médical. 
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V X{0,08, 1) — 3,84 


= 1,96 
= À0,05- 


La relation entre le test x? et le rapport critique peut être démontrée ma- 
thématiquement en partant de l'expression : 


à 
À À 


RC = | ——_—_—_—_—_— 
P(1- P) (4 +4) 


et en remplaçant fo, 1 et p par leurs valeurs respectives : 
= x =  XyuytX 

f, = _- 11 + - 11 21 
na #1 "hi + Na 


où À et Ya sont les fréquences “placebo” et “traitement” correspondant à la 
première colonne du tableau de contingence. On peut vérifier que : 


(Xu — mP} . (Gui Xu) =m(1 = Py}? : 


(RC} = 
nm na (1 Es Ê) 
ra P na(1l . P) 


= x?. 


16.4.4 Généralisation à plusieurs groupes 


Malgré leur équivalence, il est souvent souhaitable d'utiliser le test x* plutôt 
que le rapport critique en raison de sa plus grande souplesse d'application. En 
effet, il peut être aisément généralisé lorsqu'il y a plus de deux groupes à consi- 
dérer. Cette généralisation est similaire à celui déjà exprimé en ce qui concerne 
la mesure d'adéquation d'une distribution multinômiale (section 16.2.2). Bien 
que la démarche globale du test x* reste inchangée, il ést cependant opportun 
d'apporter certaines précisions particulières, Les données sont présentées sous 
forme d'un tableau de contingence IxJ, où I représente le nombre de groupes et 
J le nombre de catégories : 


Catégorie 


Groupe 1 
Groupe 2 


Groupe I 
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Si n;,; représente La fréquence correspondant au groupe à et à la catégorie 3, 
et + la taille de groupe à, le test du x? s'exprime par : 


= trs = ou) 
=VY if i+ Pi; 


ri 4 à 
i=1 ÿ=1 #+ Bis 


où p;; représente la proportion théorique de la catégorie j dans le groupe i. Sous 
l'hypothèse que les proportions sont égales dans les groupes, l'estimation de pr; 
est donnée par : 


ll 
où ny; = » ni; et n sont équivalent à la somme totale des fréquences. 
| 


16.5 Test d'indépendance 


Le tableau de contingence formé par deux variables catégoriques fournit les 
informations nécessaires pour tester l'indépendance entre les deux variables. 

Dans la section précédente, on a examiné un tableau de contingence formé 
par deux (ou plusieurs) variables binômiales. Pour ce type de tableau, les to- 
taux correspondant aux lignes sont fixés : le nombre de personnes assignées au 
“placebo” et le nombre de personnes traitées sont arrôtés d'avance en fonction 
du plan d'expérience, Pour ce type de données, c'est le test d'homogénéité qui 
est applicable. 

Dans d'autres situations, nous pouvons être amenés à analyser des tableaux 
de contingence 2 x 2 où seule la taille totale de l'échantillon est fixée d'avance. 
Par conséquent, n est déterminé alors que les totaux n,4 et n2, ont des valeurs 
aléatoires, prenant leurs valeurs suivant les résultats de l’échantillonnage. Pour 
ce type de données, c'est le test d'indépendance qui s'applique. 


16.5.1 Fréquences observées 
Il s'agit de représenter dans un tableau 2 x 2 les observations de l'échantillon. 


Exemple 16.12 Le traitement mentionné dans la section précédente est 
adruinistré à un échantillon aléatoire de 60 personnes souffrant de la maladie 
en question. Nous souhaitons étudier si l'efficacité du traitement est identique 
aussi bien pour les femmes que pour les hommes. En d'autres termes, nous 
voulons tester l'indépendance entre l'efficacité du traitement d'une part et le 
sexe du patient, d'autre part. 

Les résultats de l'expérience sont résumés dans le tableau de contingence 
16.15. 


400 Chapitre 16 


Tableau 16.15 : Fréquences observées 
Rétabli 


dans les rétabli | Total 


24 heures 
Homme 28 
Femme 32 
Total 60 


On constate qu'il y a, dans l'échantillon, 28 patients et 32 patientes. Pour 
moins d'un quart des hommes, le traitement a été efficace, alors que pour les 
femmes, l'efficacité a été de presque 50 pour cent. Nous voulons savoir si cette 
constatation est significative et non due au hasard de l'échantillonnage. 


16.5.2 Fréquences théoriques 


On note par ps; la probabilité correspondant à la valeur n;; du tableau de 
contingence 2 x 2 qui constitue les résultats de l'expérience. Autrement dit, en 
terme général : 

pis = Prob {Sexe = à et Efficacité = j}. 


Ainsi, par exemple, p11 représente la probabilité qu'un homme ayant reçu le 
traitement soit rétabli dans les 24 heures et p12 qu'il ne le soit pas. Les valeurs 
pa et pa sont les probabilités correspondantes pour les femmes. 

S'il y & indépendance entre l'efficacité du traitement et le sexe du patient, 
la probabilité conjointe s'exprime en terme multiplicatif : 


Pi = Prob {Sexe = 1} Prob {Efficacité = j} 
= a+: P+js 


OÙ Pie = Pa + Dr et P+j = Pij + Pas. Les probabilités Ds, À = 1,2 réprésen- 
tent la distribution des hommes et des femmes indépendamment du résultat du 
traitement et les probabilités p,,;, ÿ = 1,2 représentent la distribution selon que 
le rétablissement ait eu lieu ou non et ce, indépendamment du sexe du patient. 

La fréquence théorique, s'il y a indépendance entre efficacité du traitement 
et sexe du patient, est obtenue par : 


Rpij = Nfi+P+j- 
£ Ti+ pe "+; 
Pyr=z— et P,;j=—., 
+ n +7 n 
L'estimation de la fréquence théorique s'obtient, sous l'hypothèse d'indépen- 
dance, comme suit : 


A Le 7 AL 
fl ri CC 
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Le tableau 16.16 donne les valeurs correspondantes. 


Tableau 16.16 : Fréquences théoriques 


Fréquences | KRétabli non- 

théoriques | dans les rétabli | Total 
24 heures 

9,8 18,2 

11,2 20,8 

21 39 


16.5.3 Test d'indépendance du Chi-carré 


En comparant les fréquences théoriques et les fréquences observées, nous obtenons : 


2 (ni, = Mass) 
HI 4 n 
Xe — 10 LS S LES 
LE 
(6—9,8)? (22 — 18,2)° 
9,8 15,2 
(15-—11,2)? (17 - 20,8)? 
11,2 20,8 
= À,25. 


En supposant que La variable 4? suit approximativement une distribution 
x? avec 1 degré de liberté, nous comparons la valeur x? = 4,25 avec celle de 
la table x? correspondant à un degré de liberté ét à un seuil de signification de 
5%, Xfo,05, 1 = 3 84 : 


x = 4,25 -, 4,84 — X(0,05, 1° 


On déduit que le résultat de l'expérience est significatif et qu'il y a donc une 
différence d'efficacité du traitement entre les hommes et les femmes. 

Le test d'indépendance s'applique de la même manière aux variables ayant 
plus de deux catégories, en comparant les fréquences observées et les fréquences 
théoriques pour des tableaux de contingences TxJ, où I représente le nombre de 
catégories de la première variable et J de la deuxième variable. 

Dans le cas d'un tableau de contingence 2 x 2 ([=J=2), l'expression du test 
peut se simplifier de la manière suivante : 

4 C7 L: =. 2 
RD), HMS — 
=] jæl RTS 


2 
- QE = nana) 
-+4+103+-7443 
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Souvent, il est plus facile d'utiliser cette dernière expression pour calculer la 
valeur du x£. Pour l'exemple numérique de cette section, on 6btient : 


(6-17 — 15- 22)? 


3 — 
Xe © 60-25. 32.21. 30 
_ 51984 
733 824 
= 4,9%, 


Le test d'indépendance ainsi que les méthodes d'analyse de données catégori- 
ques décrites dans ce chapitre peuvent se généraliser aux cas où plus de deux 
variables font l’objet de l'étude. Une approche possible pour étudier ces prob- 
lèmes multivariés est d'utiliser le modèle log-linéaire. Pour plus de précision, on 
peut consulter des ouvrages spécialisés tels que The analysis af cross-classified 
categorical data, Stephen E. Fienberg, The MIT Press, Cambridge, Massa- 
chusetts, 1977. 


16.6 Historique 


Le terme de “contingence”, utilisé en rapport avec des tableaux croisés de don- 
nées catégorielles est vraisemblablement dû à K. Pearson (1904). Quant au test 
du chi-carré, testant l'homogénéité de la variance, c'est M. S. Bartlett qui le 
propose en 1937. 


16.7 Exercices 


1. Deux partenaires de tennis, Paul et Jean, ont disputé 90 matchs et 781 
jeux avec les détails suivants : 


Score (Paul-Jean) Fréquence 

6-0 5 

6-1 
6-2 
6-3 
6-4 
Ü-5 
0-6 
1-6 


Es 
Lu 


Les) 
ai 
D ni 9 CG =] 6 D =] -]J 


5 
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Soit À le résultat d'une manche, À = 1 si Paul gagne la manche et À = Ô 
s'il la perd. On dénote par p la probabilité P(X = 1} et par g la probabilité 
complémentaire P(X = 0). 


(a) À l’aide du test t de Student, tester l'hypothèse que Paul et Jean 
sont au même niveau au tennis. 


(b}) Utilisant le test de x*, tester l'hypothèse que la distribution de X est 
binômiale avec comme paramètre p = 1/2. 


{c) Montrer que les deux tests (a) et (b} sont équivalents. 


{d} La conclusion obtenue dans (a) serait-elle modifiée si l'hypothèse 
avait été testée à partir des résultats bruts de chaque jeu (c'est-à- 
dire sur la base de la variable Y où Ÿ = 1 signifie que Paul a gagné 
le jeu et Ÿ = À signifie que Paul a perdu le jeu} ? 


2. Pour aller au travail, un employé prend régulièrement le bus, au même 
arrêt et au même moment. Les durées d'attente sur une période de 50 


jours ont été les suivantes : 


Durée d'attente Fréquences 
moins d'1 minute 22 
1-3 16 
3-5 9 
5 où plus 3 
Total 5 


(a} Supposant que la distribution de la durée d'attente est exponentielle 
avec la fonction de densité : 


f{æ) = se x>0, À>0 


où À est le paramètre de la distribution, estimer la valeur de À. 


(b} Calculer les fréquences théoriques des intervalles de durées d'attente 
à partir du résultat de (a), et comparer les fréquences théoriques ainsi 
obtenues avec les fréquences observées. 


(c} Effectuer le test x? au seuil de signification de 5% pour tester l'hy- 
pothèse que La distribution de la durée d'attente est bien exponen- 
tielle. 


3. La liste suivante donne l'état civil et la situation dans l'emploi de douze 
jeunes immigrés : 
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7. Pour estimer le nombre de poissons dans un lac, dans un premier temps, 
on saisit quelques poissons, on les compte, on les marque puis on les libère 
dans le lac. Un peu plus tard, on resaisit quelques poissons, on compte 
combien ils sont, distinguant entre le nombre de poissons déjà saisi et le 
nombre de nouveaux poissons. Si les deux prises sont faites d'une façon 
aléatoire et indépendante, les résultats obtenus nous permettent d'obtenir 
une estimation du nombre total de poissons dans le lac. 


Soit n1 le nombre de poissons de la première prise, et n2 celui de la deux- 
ième. Soit a le nombre de poissons déjä marqués de la deuxième prise. 
Finalement, n le nombre total des poissons du lac. Ces chiffres peuvent 
être disposés dans un tableau de contingence tel qu'indiqué ci-dessous : 


| Deuxième saisie | | Deuxième saisie | 
Poissons Poissons 


Première 
saisie 


Poissons 
pêchés 


Poissons 


(a) Montrer que le nombre total de poissons doit être supérieur à n1 + 
Ta — à, 

(b} Peut-on obtenir une estimation plus exacte tenant compte du fait que 
les deux prises étaient indépendantes ? Montrer que dans ce cas : 


Li FE] 
"la ri 


et donc 


(ce) Sin: = 84, na = 207 et a = 2, calculer la valeur estimée du nombre 
total de poissons dans le lac, 


Épilogue 


Cet ouvrage se termine au chapitre 16 sur l'analvse de données catégoriques. 
Il aurait pu être complété avec d'autres chapitres et d'autres sujets. Chaque 
chapitre et chaque sujet auraît pu être développé plus en détail et avec davantage 
d'exemples. Nous ne l'avons pas fait !...Et ceci pour deux raisons. L'une est 
déjà mentionnée dans la préface et l'autre la voici, exprimée par un poète Perse 
du 13ème siècle : Moulavi Rumi. 


“Aucune verdeur ne peut comprendre ce qu'est la maturité, mais 
trève de discours, et ainsi adieu!" 
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Annexe 


Table de nombres sléatoires 
Source : MINITAB version 7.2 


Table de Gauss 
Source : Tiré de Pearson E.S. and Hartley HO. (19627), Biometrika tables 
for statisticians, vol, 1, Biometrika Trustees, London. 


Table de Student t 

Source : Algorithme développé par Zelen M. and Severo N.C. (1964). 
Probability Functions. No. 26 in Handbook of Mathematical Functions 
(ed. M. Abramowitz and LA. Stegun), National Bureau of Standards, 
Applied Mathematics Series, 55, Washington, DC: US. Government 
Printing Office. 

Génération de la table programmée par N, Rebetez. 


Table de F (Fisher) 
Source : Tiré de Pearson E.S. and Hartley H.0. (1962), Biometrika tables 
for statisticians, vol. 1, Biometrika Trustees, London. 


Table du chi-carré x° 

Source : Johnson NL. and Kotz S. (1970). Distributions in Statistics : 
Continuous Univariate Distributions - L Chapitre 17. Section 4. John 
Wiley & Sons, New York. 

Johnson N.L. and Kotz 5. (1969). Distributions in Statistics : Discrete 
Distributions. Chapitre 4. Section 11. John Wiley & Sons, New York. 
Génération de la table programmée par N. Rebetez. 
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Table de Student t 


010 O060 0.025 0.010 0.005 
31.821 63.657 318.309 
6.965 9.925 22.427 
4.541 5.841 10,215 
3.747 4.604 7.173 
3.365 4.032 5.894 
3.143 3.707 5.208 
2.998 3.499 4.785 
2896 4.455 4.501 
2.821 3.250 4.297 
2,764 3.169 4.144 
2718 3.106 4.025 
2.681 3.055 3.930 
2.650 3.012 3.852 
2.624 2,077 3.787 
2.602 2MT 3.733 
2.583 2,921 3.686 
2.507 2.498 3.646 
2.002 2.878 3.611 
2.539 2.861 3.479 
2.524 3.845 3.652 
2.518 2.831 3.527 
2.508 2.819 3.505 
2.00 2,807 d,485 
2.492 2,797 3.467 
2485 2.78 3.450 
2.479 2.779 3.435 
2473 2.771 3.421 
2467 2.763 3.408 
2.462 2.756 3.396 
a 48T 3.700 4.385 
2.365 2.626 3.174 
2 420 2.370 3.040 


Œ CO 4H or On LE CE hi 


La table de Student donne les valeurs t;, .,; telles que 


P{T ee Étav}} = 
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Table de F' (Fisher) 


230.2 20 268 2389 2405 2419 
LS. 1944 19.35 1937 19.38 19.40 
4.01 8.14 6.89 8.85 8.81 8.79 
6.26 6.lé 6.09 6.04 6.00 9.96 
5.0 4.945 4.58 4.82 4TT 4.74 
4.39 4.28 4,21 4.15 4.10 4-06 
s.97 d.8T 3.79 4.74 4.08 dt 
3.69 3.58 3.50 4.44 3.39 3.45 
3.48 ST 4.29 3.24 3.18 4.14 
CEe à | 3.22 3.14 UT 3.02 2.38 
3.20 4.014 4.01 2.05 2.90 2.65 
3.11 3.00 2.91 2,85 2.4) 2.19 
3.03 2.92 2.83 TI 2.71 2.67 
2.96 2.85 2.76 2.70 2.65 2.60 
2.90 2.79 2.71 2.64 2.59 2.54 
2.85 2.74 2.66 2.59 2.54 2.49 
2,81 2.70 2.61 2.99 2,49 2.45 
AE 2.66 2.98 2.51 2.46 2.41 
2.14 2.63 2.54 2.48 2.42 2.38 
2.71 2.60 251 2.45 2.39 2.35 
2.68 2,57 2.49 2.42 2.37 2.32 
2-66 2.65 2.46 2.40 24H 2.40 
2.64 2.53 2.44 2437 2.32 2.27 
2.62 2,51 2.42 2.36 2.h0 2.25 
2-60 2.49 2.40) 1.44 1.28 2.34 
2.59 2.47 2.39 2.32 2.27 2.22 
2.97 2 46 237 PET 2.25 2.20 
256 2.45 2.36 2.29 2.234 2.19 
2.04 2,45 2.35 2.28 à 28 2.184 
2.53 2.42 2.33 2.27 2.21 2.16 
145 1.34 2.25 2.18 212 2-08 
2.37 2.25 2.17 2.10 21M 1-99 
2.29 2.17 2.09 202 1.96 1.91 
2.21 2.10 ä.01 1.94 1-58 183 
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Le terme F a été introduit par Snedecor (1934) en l'honneur de R.A. Fisher. 
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Premiers pas en statistique 
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et ouvrage présente les concepts fonda- 
C mentaux de la théorie statistique et décrit 
les méthodes les plus souvent utilisées dans la 
pratique. [Il est destiné aux étudiants en sciences 
économiques et sociales dont le programme 
d'études inclut une connaissance étendue des 
méthodes statistiques. Il s'adresse aussi aux 
chercheurs de divers domaines des sciences 
appliquées ainsi qu'aux étudiants qui envi- 
sagent de poursuivre ultérieurement une étude 
plus approfondie de la théorie statistique 
et de ses applications. L'ouvrage comporte trois 
parties : statistique descriptive, probabilités et 


statistique inférentielle. 
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